为 什么 写作 本 书 


阿里 巴巴 是 国内 最 早 使 用 Greenplum 作 为 数据 仓库 计算 中 心 的 公司 。 从 2009 年 到 2012 年 Greenplum 都 是 阿里 巴巴 B2B 最 重要 的 数据 计算 中 心 ， 它 替换 掉 了 之 前 的 Oracle RAC， 有 非常 多 的 优点 。 
: Greenplum 的 性 能 在 数据 量 为 TB 级 别 时 表现 非常 优秀 ， 单 机 性 能 相 比 Hadoop 要 快 好 几 倍 。 
.Greenplum 是 基于 PostgreSQL 的 一 个 完善 的 数据 库 ， 在 功能 和 语法 上 都 要 比 Hadoop 上 的 SQL 引擎 Hive 好 用 很 多 ， 对 于 普通 用 户 来 说 更 加 容易 上 手 。 
.Greenpblum 有 着 完善 的 工具 ， 相 比 Hive， 整 个 体系 都 比较 完善 ， 不 需要 像 Hive 一 样 花 太 多 的 时 间 和 精力 进行 政 造 ， 非 常 适合 作为 一 些 大 型 的 数据 仓库 解决 方案 。 
: Gteenplum 能 够 方便 地 与 Hadoop 进 行 结合 ， 可 直接 把 数据 写 在 Hadoop 上 ， 还 可 以 直接 在 数据 库 上 写 MapReduce 任 务 ， 并 且 配 置 简单 。 


从 2010 年 毕业 加 入 阿里 巴巴 B2B 的 数据 仓库 起 ， 我 就 开始 接触 Greenplum 数 据 库 ， 并 有 幸 维护 了 一 年 多 的 Greenplum 数 据 库 ， 积 累 了 很 多 数据 库 的 相关 知识 。Greenplum 在 国内 的 应 用 相对 比较 少 ， 
尤其 是 网 上 资料 相当 匮乏 。 在 使 用 Greenplum 的 过 程 中 ， 阿 里 巴巴 遇 到 了 很 多 困难 ， 也 积累 了 很 多 宝贵 经 验 。 


由 于 学 习 资料 的 匮乏 ， 我 和 何勇 有 了 将 阿里 巴巴 使 用 Greenplum 的 一 些 经 验 技巧 汇聚 成 书 的 想法 ， 这 样 既 总 结 和 沉淀 了 自身 知识 ， 同 时 也 可 以 给 国内 使 用 Greenplum 的 同行 们 提供 一 点 帮助 。 


本 书 组 织 结构 


本 书 从 实战 角度 出 发 ， 结 合 了 大 量 实践 案例 ( 附 有 详细 的 代码 ) ， 由 浅 入 深 介绍 了 Greenplum。 本 书 由 15 章 组 成 ， 主 要 分 为 3 篇 。 
上 篇 (第 1~3 章 ) 一 一 基础 篇 


基础 篇 目的 是 帮助 读者 快速 了 解 Greenplum ， 从 实战 的 角度 介绍 一 些 入 门 必 备 的 基础 知识 。 从 如 何 安装 部 署 Greenplum 开 始 ， 一 步 步 引 导读 者 搭建 自己 的 Greenplum 数 据 库 ， 然 后 介绍 基本 的 语法 及 
相关 操作 。 本 篇 最 后 通过 分 析 两 个 具体 的 数据 仓库 ETL 的 案例 ， 加 强 读者 对 Greenplum 功 能 特性 的 了 解 ， 提 高 实践 能 力 。 


中 篇 〈 第 4~ 7 章 ) 一 一 进 阶 篇 
进 阶 篇 重点 介绍 Greenplum 的 数据 字典 、 执 行 计划 、 架 构 以 及 一 些 高 级 特性 。 


数据 字典 是 Greenplum 对 元 数据 信息 的 组 织 方式 ， 执 行 计划 是 数据 库 执行 SQL 的 灵魂 ， 高 级 特性 则 是 Greenplum 的 优势 所 在 。 本 篇 结合 了 大 量 案 例 对 以 上 内 容 进行 了 深入 分 析 。 通 过 对 这 些 内 容 的 学 
习 ， 可 以 深入 理解 数据 库 的 工作 原理 ， 是 进 阶 的 必 经 之 路 ， 可 以 让 读者 游 妨 有 余地 应 对 各 种 Greenplum 的 日 常 操作 。 


下 篇 (第 8~15 章 ) 一 一 管理 篇 


管理 篇 主要 介绍 一 些 与 数据 库 管 理 员 相关 的 知识 ， 包 括 线 上 部 署 、 性 能 优化 、 权 限 控制 、 监 控 、 容 灾 / 扩 容 方案 、 常 用 脚本 以 及 常见 问题 等 。 这 些 更 偏向 于 后 台 管 理 ， 是 DBA 必 修 的 课程 。 


本 书面 向 的 读者 


阅读 本 书 需要 读者 对 关系 型 数据 库 有 基本 了 解 ， 最 好 也 了 解 一 些 Linux 的 基本 操作 。 本 书面 向 的 读者 主要 有 : 
Greenplum 数 据 库 管理 员 
. 使 用 Greenplum 的 ETL 开 发 工程 师 
“ 数据 库 爱 好 者 、 分 布 式 系统 爱好 者 


- 数据 分 析 师 、 商 业 智 能 分 析 师 


如 何 阅读 本 书 


对 于 刚 接 触 Greenplum 的 读者 来 说 ， 建 议 从 第 1 章 读 起 ， 书 中 有 很 多 结合 实践 的 例子 ， 帮 助 读 者 加 深 对 Greenplum 的 理解 。 


如 果 对 Greenplum 已 经 比较 熟悉 ， 可 以 从 第 4 章 开 始 读 起 ， 应 重点 关注 第 5 章 进 解 分 布 式 执行 计划 。 了 解 执 行 计划 是 熟悉 数据 库 工 作 原 理 的 一 种 有 效 方 法 ， 分 布 式 执行 计划 与 普通 执行 计划 还 是 有 较 大 差 
别 的 。 


如 果 只 是 想 通 过 本 书 了 解 Greenplum 数 据 库 与 普通 关系 型 数据 库 的 差异 ， 可 以 先 阅 读 第 7 章 ， 了 解 Greenplum 架 构 ， 然 后 再 选取 自己 喜欢 的 章节 进行 阅读 。 
本 书 偏向 于 实战 ， 理 论 方面 的 知识 相对 较 少 ， 感 兴趣 的 读者 可 以 结合 其 他 介绍 数据 库 的 资料 进行 阅读 ， 如 “PostgreSQL8.2 官 方 文档 ”、 《数据 库 系统 概念 》、 《数据 库 系 统 实现 》.。 


虽然 Greenplum 并 不 是 开源 的 ， 但 是 Greenplum 是 基于 PostgreSQL 开 发 的 ， 而 PostgreSQL 是 开源 的 。 还 有 ，Greenplum 自 带 了 很 多 维护 脚本 ， 大 部 分 采用 shell 和 Python 编写 。 因 此 ， 对 于 想 深入 理 
解 Greenplum 的 读者 来 说 ， 建 议 结合 PostgresQL 源 码 及 Greenplum 安 装 目录 下 的 一 些 脚本 代码 进行 阅读 。 通 过 阅读 这 些 源码 ， 可 以 加 深 对 Greenplum 底 层 的 了 解 。 


本 书 大 部 分 例子 都 是 基于 Greenpum 4.1 版 本 进行 编写 的 ， 在 写作 的 过 程 ，Greenplum 已 经 升级 到 Greenpum 4.3， 因 此 在 书稿 快 完成 时 ， 笔 者 对 全 书 进 行 了 审核 。 由 于 Greenplum 4.3 与 Greenplum 
4.1 大 部 分 的 内 容 都 是 相同 的 ， 因 此 ， 笔 者 在 书稿 中 必要 的 地 方 采 用 修改 或 备注 的 方式 加 入 了 一 些 Greenplum 4.3 的 新 特性 ， 尽 量 保证 了 本 书 的 时 效 性 。 


勘误 和 支持 


本 书 第 1、3、7、8、14 章 由 何勇 撰写 ， 其 余 章节 由 陈 晓 峰 撰写 ， 由 于 是 第 一 次 写作 ， 在 写作 上 肯定 会 有 很 多 的 不 足 ， 加 上 笔者 能 力 有 限 ， 难 免 会 有 遗漏 或 错误 。 如 果 读 者 发 现 书 中 有 遗漏 或 错误 的 地 
方 ， 可 以 发 邮件 到 greenplum_book@163.com， 同 时 欢迎 大 家 通过 邮件 一 起 交流 关于 Greenplum 的 问题 。 
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上 篇 ”基础 篇 


上 第 1 章 ”Greenplum 简 介 
上 第 2 章 ”Greenplum 快 速 入 门 


上 第 3 章 ”Greenplum 实 战 


第 1 章 Greenplum 人 简介 


本 章 先 介绍 Greenplum 的 产生 背景 、 特 性 及 应 用 场景 、 与 PostgreSQL 关 系 ， 以 及 发 展 历程 。 


1.1 _ Greenplum 的 起 源 和 发 展 历程 


豆 短 十 多 年 ， 互 联网 在 中 国 经 历 了 从 门户 网 站 、 搜 索 、 即 时 通信 、 游 戏 娱 乐 、 垂 直 细 分 .…… 到 电子 商务 、Web 2.0， 再 到 社会 化 网 络 、 移 动 互 联网 的 一 系列 进化 和 变革 。 无 论 是 互联 网 还 是 移动 互联 网 ， 
都 是 由 海量 的 数据 构成 。 对 海量 数据 分 析 的 需求 开始 突破 传统 边界 ， 不 再 局 限于 电信 、 移 动 、 金 融 、 保 险 、 制 造 等 传统 企业 ， 涌 现 出 大 批 将 海量 、 庞 杂 的 数据 转化 为 知识 ， 提 供 业 务 经 营 决策 支持 的 企业 。 
针对 数据 密集 型 计算 中 的 海量 数据 处 理 这 一 问题 ， 研 究 者 开始 考虑 如 何 利用 大 规模 集群 系统 所 具有 的 可 伸缩 性 和 容错 性 的 优势 ， 实 现 高 效 的 数据 管理 功能 。 比 较 典型 的 解决 方案 有 Teradata、Greenplum.、 


Hadoop Hive, Oracle Exadata, IBM Netteza 等 。 


Greenplum 是 一 家 总 部 位 于 美国 加 利 福 尼 亚 州 ， 为 全 球 大 型 企业 用 户 提供 新 型 企业 级 数据 仓库 (EDW) 、 企 业 级 数据 云 (EDC) 和 商务 智能 (BI) 提供 解决 方案 和 咨询 服务 的 公司 。 选 择 Greenplum 
的 产品 的 国际 大 客户 有 : 纳 斯 达 克 、 纽 约 证 券 交易 所 、Skype.FOX、T-Mobile 等 ， 在 中 国 ， 中 信 实 业 银 行 、 东 方 航空 公司 、 阿 里 巴巴 、 华 泰 保险 、 中 国 远洋 (Cosco) 、 李 宁 公 司 等 大 型 企业 用 户 也 选择 了 
Greenplum 的 产品 。Greenplum 的 友 展 历程 简要 如 下 。 


- 2003: Greenplum 由 Scott Yata 和 Luke Lonetgan 成 立 。 

: 2005: Greenplum 数 据 库 第 一 个 版 本 发 布 。 

:2006: 与 Sun 公 司 合作 ， 成 为 其 合伙 人 。 

- 2008: Greenplum MapReduce 发 布 ， 同 年 12 月 份 进 入 中 国 市 场 ， 一 年 多 后 ，Gteenplum 正 式 宣 布 在 中 国 独 立 运营 。 
: 2010: Greenplum 被 EMC 收 购 ， 并 被 整合 到 EMC 的 云 计算 战略 中 。 

: 2011—2012: Greenplum 社 区 版 发 布 ，Greenplum Chorus 发 布 并 开源 。 


: 2014: Greenplum 4.3 发 布 。 


1.2 OLTPSOLAP 

数据 库 系统 一 般 分 为 两 种 类 型 ， 一 种 是 面向 前 台 应 用 的 ， 应 用 比较 简单 ， 但 是 重 吞吐 和 高 并 发 的 OLTP 类 型 ; 一 种 是 重 计算 的 ， 对 大 数据 集 进行 统计 分 析 的 OLAP 类 型 。Greenplum 属 于 后 者 ， 下 面 简单 
介绍 下 这 两 种 数据 库 系 统 的 特点 。 

OLTP (On-Line Transaction Processing， 联 机 事务 处 理 ) 系统 也 称 为 生产 系统 ， 它 是 事件 驱动 的 、 面 向 应 用 的 ， 比 如 电子 商务 网 站 的 交易 系统 就 是 一 个 典型 的 OLTP 系 统 。OLTP 的 基本 特点 是 : 

" 数据 在 系统 中 产生 ; 


- 基于 交易 的 处 理 系统 (Transaction-Based) ; 


* 每 次 交易 它 涉 的 数据 量 很 小 ; 
对 响应 时 间 要 求 非常 高 ; 
. 用 户 数量 非常 庞大 ， 主 要 是 操作 人 员 ，; 


"数据库 的 各 种 操作 主要 基于 索引 进行 。 


OLAP (On-Line Analytical Processing， 联 机 分 析 处 理 ) 是 基于 数据 仓库 的 信息 分 析 处 理 过 程 ， 是 数据 仓库 的 用 户 接口 部 分 。OLAP 系 统 是 跨 部 门 的 、 面 向 主题 的 ， 其 基本 特点 是 : 
"本身 不 产生 数据 ， 其 基础 数据 来 源 于 生产 系统 中 的 操作 数据 (OperationalData) ; 
基于 查询 的 分 析 系 统 ; 
" 复杂 查询 经 常 使 用 多 表 联 结 、 全 表 扫 描 等 ， 牵 涉 的 数据 量 往往 十 分 庞大 ; 
* 响应 时 间 与 具体 查询 有 很 大 关系 ; 
* 用 户 数量 相对 较 小 ， 其 用 户主 要 是 业务 人 员 与 管理 人 员 ; 


: 由 于 业务 问题 不 国定 ， 数 据 库 的 各 种 操作 不 能 完全 基于 索引 进行 。 


1.3 ”PostgreSQL 与 Greenplum 的 关系 


1.3.1 PostgreSQL 


PostgreSQL 是 一 种 非常 先进 的 对 象 - 关 系 型 数据 库 管理 系统 (ORDBMS) ， 是 目前 功能 最 强大 ， 特 性 最 丰富 和 技术 最 先进 的 自由 软件 数据 库 系 统 之 一 ， 其 某 些 特性 甚至 连 商业 数据 库 都 不 具备 。 这 个 起 
源 于 伯克利 (BSD) 的 数据 库 研 究 计划 目前 已 经 衍生 成 一 项 国际 开发 项 目 ， 并 且 有 非常 广泛 的 用 户 。 


PostgreSQL 的 特点 可 以 说 是 数不胜数 ， 称 其 为 最 先进 的 开源 软件 数据 库 当之无愧 ， 支 持 绝 大 部 分 的 主流 数据 库 特性 ， 主 要 体现 在 如 下 几 方 面 。 

(1) 函数 /存储 过 程 

PostgreSQL 对 非常 丰富 的 过 程 类 语言 提供 支持 ， 可 以 编写 自 定 义 函 数 /人 存储 过 程 。 

:内置 的 plpgsql， 一 种 类 似 Oracle 的 PLsql 的 语言 。 

. 支持 的 脚本 语言 有 : PL/Laa PL/LOLCODE. PL/Perd, PL/HP. PL/Python, PL/Ruby. PL/sh. PL/TclfePL/Scheme. 

. 编译 语言 有 C、C++ 和 JAVA。 

:统计 语言 PL/R。 

(2) 索引 

PostgreSQL 支 持 用 户 定义 的 索引 访问 方法 ， 并 且 内 置 了 B-tree、 哈 希 和 GiST 索 引 。PostgreSQL 中 的 索引 有 下 面 几 个 特点 。 

“ 可 以 从 后 向 前 扫描 。 

` 可 以 创建 表达 式 索引 。 

` 部 分 索引 。 

(3) 触 友 器 
触发 器 是 由 SQL 查询 的 动作 触发 的 事件 。 比 如 ， 一 个 INSERT 查 询 可 能 激活 一 个 检查 输入 值 是 否 有 效 的 触发 器 。 大 多 数 触发 器 都 只 对 INSERT 或 者 UPDATE 查 询 有 效 。 
PostgreSQL 完 全 支持 触发 器 ， 可 以 附着 在 表 上 ， 但 是 不 能 在 视图 上 。 不 过 视图 可 以 有 规则 。 多 个 触发 器 是 按照 字母 顺序 触发 的 。 我 们 还 可 以 用 其 他 过 程 语言 书写 触 帮 器 国 数 ， 不 仅仅 PL/PgSQL。 
(4) 并 发 管理 (MVCC) 


PostgreSQL 的 并 发 管理 使 用 的 是 一 种 叫做 “MVCC” (多 版 本 并 发 机 制 ) 的 机 制 ， 这 种 机 制 实际 上 就 是 现在 在 众多 所 谓 的 编程 语言 中 极其 火爆 的 “Lock Free" ， 其 本 质 是 通过 类 似 科幻 世界 的 时 空 穿 
梭 的 原理 ， 给 予 每 个 用 户 一 个 自己 的 “时 空 ”， 然 后 通过 原子 的 “时 空 ”控制 来 控制 时 间 基 线 ， 并 以 此 控制 并 发 更 改 的 可 见 区 域 ， 从 而 实现 近乎 无 锁 的 并 发 ， 而 同时 还 能 在 很 大 程度 上 保证 数据 库 的 ACID 特 
性 。 


(5) 规则 (RULE) 
规则 允许 我 们 对 由 一 个 查询 生成 的 查询 树 进 行 改写 。 
(6) 数据 类 型 

PostgreSQL 支 持 非 常 广泛 的 数据 类 型 ,包括 : 

. 任意 精度 的 数值 类 型 ; 

.无限 长 度 的 文本 类 型 ; 

JURA; 

- IPv4 和 IPv6 类 型 ; 

. CIDR 块 和 MAC 地 址 ; 

数组 。 
用 户 还 可 以 创建 自己 的 类 型 ， 并 且 可 以 利用 GiST 框 架 把 这 些 类 型 做 成 完全 可 索引 的 ， 比 如 来 自 PostG1S 的 地 理 信息 系统 (GIS) 的 数据 类 型 。 
(7) 用 户 定义 对 象 


因为 PostgreSQL 使 用 一 种 基于 系统 表 的 可 扩展 的 结构 设计 ， 所 以 PostgreSQL 内 部 的 几乎 所 有 对 象 都 可 以 由 用 户 定义 ， 这 些 对 象 包括 : 


* 索引; 
“ 操作 符 〈 内 部 操作 符 可 以 被 覆盖 ) ; 
聚集 函数 ; 
-I5 
类 型 转换 ; 
编码 转换 。 
(8) 继承 
PostgreSQL 的 表 是 可 以 相互 继承 的 。 一 个 表 可 以 有 父 表 ， 父 表 的 结构 变化 会 导致 子 表 的 结构 变化 ， 而 对 子 表 的 插入 和 数据 更 新 等 也 会 反映 到 父 表 中 。 
(9) 其 他 特性 与 扩展 
PostgreSQL 还 支持 大 量 其 他 的 特性 ， 比 如 : 
.二进制 和 文本 大 对 象 存储 ; 
. 在线 备份 ; 
: TOAST (The Oversized-Attribute Storage Technique) 用 于 透明 地 在 独立 的 地 方 保存 大 的 数据 库 属 性 ， 当 数据 超过 一 定 大 小 的 时 候 ， 会 自动 进行 压缩 以 节省 空间 ; 
| 正则 表达 式 。 
此 外 PostgreSQL 还 有 大 量 的 附加 模块 和 扩展 版 本 ， 比 如 ， 多 种 不 同 的 主 从 / 主 主 复制 方案 : 
. Slony-I; 
* pgcluster; 
- Mammoth replicator; 


: Bucardo。 


1.3.2 Greenplum 


简单 地 说，Greenplum 就 是 一 个 与 Oracle、DB2、PostgreSQL 一 样 面向 对 象 的 关系 型 数据 库 。 我 们 通过 标准 的 SQL 可 以 对 Greenplum 中 的 数据 进行 访问 存 取 。 


本 质 上 讲 ，Greenplum 是 一 个 关系 型 数据 库 集 群 ， 它 实际 上 是 由 数 个 独立 的 数据 库 服 务 组 合成 的 逻辑 数据 库 。 与 Oracle RAC 的 Shared-Everything 架 构 不 同 ，Greenplum 采 用 Shared-Nothing 架 构 ， 
整个 集群 由 很 多 个 数据 节点 (Segment Host) 和 控制 节点 (Master Host) 组 成 ， 其 中 每 个 数据 节点 上 可 以 运行 多 个 数据 库 。 简 单 来 说 ，Shared-Nothing 是 一 个 分 布 式 的 架构 ， 每 个 节点 相对 独立 。 在 典 
型 的 Shared-Nothing 中 ， 每 一 个 节点 上 所 有 的 资源 (CPU， 内 存 ,， 磁盘) 都 是 独立 的 ， 每 个 节点 都 只 有 全 部 数据 的 一 部 分 ， 也 只 能 使 用 本 节点 的 资源 。 


基于 对 Shared-Nothing 分 布 式 架构 模式 的 分 析 ，Greenplum 高 效 处 理 MO 数 据 吞 吐 和 并 发 计算 的 过 程 就 很 好 理解 了 。 在 Greenplum 中 ， 需 要 存储 的 数据 在 进入 数据 库 时 ， 将 先进 行 数 据 分 布 的 处 理工 
作 ， 将 一 个 表 中 的 数据 平均 分 布 到 每 个 节点 上 ， 并 为 每 个 表 指 定 一 个 分 发 列 (distribute Column) ， 之 后 便 根据 Hash 来 分 布 数据 。 基 于 Shared-Nothing 的 原则 ，Greenplum 这 样 处 理 可 以 充分 友 挥 每 个 
节点 处 MO 的 处 理 能 力 。 在 这 一 过 程 中 ， 控 制 节点 (Master Host) 将 不 再 承担 计算 任务 ， 而 只 负责 必要 的 逻辑 控制 和 客户 端 交 互 。1/O 瓶 颈 的 解决 为 并 行 计算 能 力 的 提升 创造 了 良好 的 环境 ， 所 有 节点 服务 
器 组 成 一 个 强大 的 计算 平台 ， 实 现 快速 的 海量 并 行 运算 。Greenplum 在 数据 仓库 、 商 业 智能 的 应 用 上 ， 尤 其 是 在 海量 数据 的 处 理 方面 性 能 极其 优异 。 


Greenplum 是 面向 数据 仓库 应 用 的 关系 型 数据 库 ， 它 是 基于 目前 流行 的 PosgreSQL 开 发 的 ， 跟 PostgreSQL 的 兼容 性 非常 好 ， 大 部 分 的 PostgreSQL 客 户 端 工 具 及 PostgreSQL 应 用 都 能 运行 在 
Greenplum3E& E. 


14 Greenplum 特 性 及 应 用 场景 


1.4.1 ”Greenplum 特 性 


(1) 支持 海量 数据 存储 和 处 理 


当今 是 个 数据 迅速 增长 的 时 代 ， 数 据 量 从 过 去 的 MB 到 GB， 再 到 TB 增长 到 现在 的 PB 级 规模 ， 传 统 的 OLTP 数 据 库 在 TB 级 别 以 上 的 数据 管理 中 已 经 捉襟见肘 。Greenplum 使 用 MPP 架 构 ， 同 时 使 用 多 人 台 
机 器 并 行 计 算 ， 极 大 地 提高 了 对 海量 数据 的 处 理 能 力 。 采 取 MPP 架 构 的 数据 库 系 统 才能 对 海量 数据 进行 管理 。 


(2) 高 性 价 比 
Greenplum 数 据 库 可 以 搭建 在 业界 各 种 开放 式 硬 件 平台 上 ， 在 硬件 选 型 上 有 很 强 的 自由 性 。 
相 比 其 他 封闭 式 数据 仓库 专用 系统 及 Hadoop 分 析 平 台 ，Greenplum 在 每 TB 数据 量 上 的 投资 是 前 者 的 1/5 甚 至 更 低 。 
Greenplum licence 相 比 Oracle RAC、Teradata 等 ， 价 格 低廉 。 
Greenplum 易 于 维护 ， 可 以 节省 大 量 的 维护 成 本 。 
(3) 支持 Just In Time BI 


Greenplum 通 过 准 实时 、 实 时 的 数据 加 载 方式 ， 实 现 数据 仓库 的 实时 更 新 ， 进 而 实现 动态 数据 仓库 (ADW) 。 基 于 动态 数据 仓库 ， 业 务 用 户 能 对 当前 业务 数据 进行 BI 实 时 分 析 (Just In Time BI) , RE 
够 让 企业 敏锐 感知 市 场 的 变化 ， 加 快 决策 支持 反应 速度 。 


(4) 系统 易 用 性 


Greenplum 是 基于 PostgreSQL 开 发 的 ， 语 法 与 PostgreSQL 几 乎 一 样 ，PostgreSQL 的 工具 基本 上 都 能 够 在 Greenplum 中 使 用 ， 比 如 pgadmin 等 。Greenplum 使 用 通用 的 PostgreSQL 连 接 包 即 可 与 数 
据 库 连接 ， 支 持 绝 大 部 分 开发 语言 。Greenplum 的 易 用 性 具体 表现 如 下 。 


“ 支持 主流 的 SQL 语法 ， 使 用 起 来 十 分 方便 ， 学 习 成 本 低 。 
. 扩展 性 好 ， 支 持 多 语言 的 自 定义 函数 和 自 定义 类 型 等 。 

` 提供 了 大 量 的 维护 工具 ， 使 用 维护 起 来 很 方便 。 

: 在 Internet 上 有 着 丰富 的 PostgreSQL 资 源 供用 户 参 考 。 

(5) 支持 线性 扩展 


Greenplum 采 用 MPP 并 行 处 理 架 构 。 在 MPP 架 构 中 增加 节点 就 可 以 线性 提高 系统 的 存储 容量 和 处 理 能 力 。Greenplum 在 扩展 节点 时 操作 简单 ， 在 很 短 时 间 内 就 能 完成 数据 的 重新 分 布 。Greenplum 线 
性 扩展 支持 为 数据 分 析 系 统 将 来 的 拓展 提供 了 技术 上 的 保障 ， 使 用 户 可 根据 实施 需要 进行 容量 和 性 能 的 扩展 。 


(6) 较 好 的 并 发 支持 及 高 可 用 性 支持 


Greenplum 是 高 可 用 的 系统 ， 在 已 有 案例 中 最 多 使 用 了 96 台 机 器 的 集群 MPP 环 境 。 除 了 硬件 级 的 Raid 技 术 外 ，Greenplum 还 提供 数据 库 层 Mirror 机 制 保护 ， 也 就 是 将 每 个 节点 的 数据 在 另外 的 节点 中 
同步 镜像 ， 单 个 节点 的 错误 不 影响 整个 系统 的 使 用 。 对 于 主 节点 ，Greenplum 提 供 Master/Stand by 机 制 进行 主 节点 容错 ， 当 主 节 点 发 生 错 误 时 ， 可 以 切换 到 Stand by 节点 继续 服务 。 


(7) 支持 MapReduce 
MapReduce 已 经 被 谷歌 和 雅虎 等 互联 网 领先 企业 证 明 是 一 种 大 规模 数据 分 析 技 术 ，Greenplum 将 这 种 能 力 提供 给 企业 。 
(8) 数据 库 内 部 压缩 


面 对 海量 数据 ， 压 缩 可 以 节省 很 大 的 空间 ， 而 且 在 对 大 数据 的 分 析 时 ， 压 缩 也 可 能 减少 对 磁盘 的 访问 。Greenplum 支 持 对 数据 库 表 进行 压缩 处 理 ， 从 而 提升 数据 库 的 性 能 。 


1.4.2 Greenplum 应 用 场景 


Greenplum 数 据 引 警 是 为 新 一 代数 据 仓库 和 大 规模 分 析 处 理 而 建立 的 软件 解决 方案 ， 其 最 大 的 特点 是 不 需要 高 端的 硬件 支持 仍然 可 以 支撑 大 规模 的 高 性 能 数据 仓库 和 商业 智能 查询 。 在 数据 仓库 、 商 业 
智能 的 应 用 上 ， 尤 其 在 海量 数据 的 处 理 方面 Greenplum 表 现 出 极其 优异 的 性 能 。 


传统 数据 库 侧重 交易 处 理 ， 关 注 的 是 多 用 户 的 同时 的 双向 操作 ， 在 保障 即时 性 的 要 求 下 ， 系 统 通过 内 存 来 处 理 数据 的 分 配 、 读 写 等 操作 ， 存 在 10 痊 贷 。 而 分 析 型 数据 库 是 以 实时 多 维 分 析 技 术 作 为 基 
础 ， 对 数据 进行 多 角度 的 模拟 和 归纳 ， 从 而 得 出 数据 中 所 包含 的 信息 和 知识 。Greenplum 虽 然 是 关系 型 数据 库 产 品 ， 但 是 它 具 有 查询 速度 快 、 数 据 装载 速度 快 、 批 量 DML 处 理 快 的 主要 特点 ， 而 且 性 能 可 以 
随 着 硬件 的 添加 呈 线 性 增加 ， 拥 有 非常 良好 的 可 扩展 性 。 因 此 ，Greenplum 主 要 适用 于 面向 分 析 的 应 用 ， 比 如 构建 企业 级 ODS/EDW、 数 据 集 市 等 。 


在 国内 ， 笔 者 所 在 公司 阿里 巴巴 (中 国 ) 网 络 技术 有 限 公 司 ， 从 2008 年 开始 引入 Greenplum， 将 原 有 的 Oracle RAC 迁 移 到 Greenplum 上 ， 作 为 数据 仓库 的 计算 中 心 ， 其 中 一 个 应 用 就 是 通过 分 析 
用 户 的 网 络 点 击 日 志 进 行 产品 的 关联 分 析 。 支 付 宝 在 2008 年 也 引入 了 Greenplum 数 据 库 作为 数据 中 心 。 国 内 还 有 很 多 银行 也 引入 了 Greenplum 作 为 基础 的 数据 平台 ， 如 北京 银行 、 深 发 展 银行 、 中 信和 银行 
信用 卡 中 心 等 。 在 TB 级 的 数据 仓库 的 OLAP 应 用 中 Greenplum 在 易 用 性 和 性 能 方面 有 着 很 大 的 优势 。 


1.5. BEES 


本 章 非 常 简短 地 介绍 了 Greenplum 产 生 的 背景 ， 并 分 别 对 比 OLTP 与 OLAP、PostgreSQL 和 Greenplum， 另 外 简要 介绍 了 Greenplum 的 特性 、 应 用 场景 及 发 展 历程 ， 相 信 通 过 这 一 章 能 让 读者 在 总 体 上 
对 Greenplum 有 所 认识 。 


第 2 章 Greenplum 快 速 入 门 


本 章 将 介绍 如 何 快速 安装 部 署 Greenplum， 以 及 Greenplum 的 一 些 常用 命令 及 工具 。“ 工 欲 善 其 事 ， 必 先 利 其 器 ” ， 因 此 我 们 先 从 如 何 安装 Greenplum 开 始 介 绍 ， 然 后 介绍 一 些 简 单 的 工具 ， 以 及 
Greenplum 的 语法 及 特性 。 


为 了 让 读者 更 加 快速 地 入 门 ， 避 免 涉 及 太 多 底层 的 东西 。 本 章 不 会 涉及 硬件 选 型 、 操 作 系统 参数 进 解 、 机 器 性 能 测试 等 高 级 内 容 ， 这 些 会 在 “第 8 章 Greenplum 线 上 环境 部 署 ” 中 介绍 。 


2.1 ”软件 安装 及 数据 库 初 始 化 
下 面 先 介 绍 如 何 搭建 一 个 完整 的 Greenplum 环 境 。 在 搭建 环境 之 前 ， 我 们 必须 对 Greenplum 的 架构 有 一 定 的 了 解 ， 并 且 准 备 好 安装 部 署 的 机 器 ， 机 器 硬件 、 操 作 系 统 的 安装 配置 读者 可 自行 完成 。 
2.1.1 ”Greenplum 架 构 


在 安装 数据 库 的 时 候 ， 我 们 先 要 对 Greenplum 架 构 有 一 定 的 了 解 ， 这 样 可 以 对 数据 库 的 安装 和 使 用 起 到 一 个 指导 性 的 作用 。 同 时 在 搭建 Greenplum 环 境 的 过 程 中 ， 可 以 加 深 对 Grenplum 架 构 的 理解 。 
Greenplum 总 体 架 构图 如 图 2-1 所 示 。 


Client 


下 面 介 绍 每 个 部 件 的 主要 功能 ， 如 表 2-1 所 示 。 


Master 主机 负责 
1) 建立 与 客户 端的 会 话 连接 和 管理 


Segment Host | 


Segment Host 


Segment Host 


Master Host | .. Segment Host 


图 2-1 Greenplum 总 体 架 构图 


表 2-1 Mastet 主 机 与 Segment 主 机 对 比 


Segment 主机 负责 
1) 业务 数据 的 存储 和 存 取 


2) SQL 的 解析 并 形成 分 布 式 的 执行 计划 2 ) 执行 由 Master 分 发 的 SQL ifi 

3) 将 生成 好 的 执行 计划 分 发 到 每 个 Segment 上 执行 3) 对 于 Master 来 说 ， 每 个 Segment 都 是 对 等 的 ， 负 责 
4 ) 收集 Segment 的 执行 结果 对 应 数据 的 存储 和 计算 

5 ) Master 不 存储 业务 数据 ， 只 存储 数据 字典 4) 每 一 台 机 器 上 可 以 配置 一 到 多 个 Segment 

6) Master 主机 可 以 一 主 一 备 ， 分 布 在 两 台 机 需 上 5) 由 于 每 个 Segment 都 是 对 等 的 ， 建 议 采 用 相同 的 机 器 
7) 为 了 提高 性 能 ，Master 最 好 单独 占用 一 台 机 器 配置 


通过 图 2-2 可 以 看 出 Master 与 Segment 的 关系 。 


6 ) Segment 分 primary 和 mirror 两 种 ， 一 般 交 错 地 存放 
TE T xa E 


master host segment host 1 segment host 2 segment host n 


global 
catalog 


图 2-2 Master Segmentf] X f 
Master 和 segment 其实 都 是 一 个 单独 的 PostgreSQL 数 据 库 。 每 一 个 都 有 自己 单独 的 一 套 元 数据 字典 ， 在 这 里 ，Master 节 点 一 般 也 叫 主 节点 ，Segment 也 叫做 数据 节点 。 


Segment 节 点 与 Master 节 点 的 通信 ， 通 过 干 兆 (或 万 兆 ) 网 卡 组 成 的 内 部 连接 (InterConnect) ， 在 同一 台数 据 节 点 机 器 上 可 以 放 多 个 Segment， 不 同 的 Segment 节 点 会 被 赋予 不 同 的 端口 ， 同 
时 ，Segment 之 间 也 不 断 地 进行 着 交互 。 为 了 实现 高 可 用 ， 每 个 Segment 都 有 对 应 的 备 节点 (Mirror Segment) ， 分 别 存在 于 不 同 的 机 器 上 。 


Iu 


Client 一 般 只 能 与 Master 节 点 进行 交互 ，Client 将 SQL 发 给 Master， 然 后 Master 对 SQL 进行 分 析 后 ， 再 将 其 分 配给 所 有 的 segment 进行 操作 ， 并 且 将 汇总 结果 返回 给 客户 端 。 


2.1.2 环境 搭建 


1.Greenplum 集 群 介绍 

在 这 里 的 Greenplum 集 群 中 ， 有 4 人 台 机 器 ，IP 分 别 是 : 
- 10.20.151.7; 

- 10.20.151.8; 

- 10.20.151.9; 

: 10.20.151.10., 


机 器 对 应 的 Master 和 和 Segment 如 下 分 配 : 10.20.151.7 作 为 Master 节 点 ，10.20.151.8~10 作 为 Segment 节 点 ， 每 个 机 器 上 配置 两 个 Primary Segment 和 两 个 Mirror Segment; 同时 10.20.151.10 作 为 


Master Standy 节 点 。 


通过 图 2-3 的 架构 图 可 以 清晰 地 知道 我 们 所 搭建 的 集群 的 概况 。 
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图 2-3 ”安装 测试 环境 的 Greenplum 架 构 


2. 安 装 Linux 
Greenplum 没 有 Windows 版 本 ， 只 能 安装 在 类 UNIX 的 操作 系统 上 ， 例 如 : 
: SUSE Linux SLES 10.2 or higher; 
* CentOS 5.0 or higher; 
: RedHat Enterprise Linux 5.0 or higher; 
: Solaris x86 v10 update 7 。 


如 果 读 者 没有 现成 的 Linux 机 器 ， 可 以 在 虚拟 机 (如 VMWare) 上 安装 ， 用 户 可 自行 安装 VMWare 及 对 应 的 Linux 操 作 系统 ， 网 上 相应 的 资料 很 多 ， 这 里 就 不 再 阐述 。 


3. 数 据 库 存储 

对 于 数据 库 来 说 ， 在 性 能 上 磁盘 1O 很 容易 成 为 瓶 贷 ， 由 于 数据 库 的 特性 ， 每 一 个 SQL 基 本 都 是 对 全 表 数 据 进行 分 析 ， 每 次 处 理 的 数据 量 非常 大 ， 数 据 基本 上 都 是 没有 缓存 的 (数据 字典 除外 ) ， 极 度 消 
EORR (全 表 扫 描 主要 都 是 顺序 /O) ， 所 以 Greenplum 对 存储 的 要 求 比较 高 。 在 文件 系统 的 选择 上 ， 在 Linux 下 建议 使 用 XFS， 在 Solaris 下 建议 使 用 ZFS， 对 于 Raid 根 据 需 求 选择 硬 Raid 或 软 Raid， 如 果 
需要 更 大 的 空间 ， 建 议 使 用 Raid 5， 如 果 对 性 能 有 更 高 的 要 求 ， 可 以 选择 Raid 1+0。 相 关内 容 请 参考 第 8 章 关 于 Greenplum 线 上 环境 部 署 的 介绍 。 


如 果 只 是 想 试 用 Greenplum ， 数 据 量 比较 小 ， 那 么 怎么 存储 无 所 谓 ， 可 以 用 任意 的 目录 作为 数据 库 数 据 目 录 。 
4. 网 络 (hosts) 
在 确定 机 器 配置 的 时 候 ， 要 保证 所 有 机 器 的 网 络 都 是 通 的 ， 并 且 每 台 机 器 的 防火 墙 都 是 关闭 的 ， 避 免 存 在 网 络 不 通 的 问题 。 


在 配置 /etc/hosts 时 ， 习 惯 将 Master 机 器 叫做 mdw， 将 Segment 机 器 叫做 sdw， 配 置 好 后 ， 使 用 ping 命 令 确定 所 有 hostname 都 是 通 的 。 


#cat /etc/hosts 
#BEGIN GROUP CUSTOMER 


127.0.0.1 localhost localhost.localdomain 
0.20.151.7 dw-greenplum-1 mdw 
0.20.151.8 dw-greenplum-2 sdw1 
0.20.151.9 dw-greenplum-3 sdw2 
10.20.151.10 dw-greenplum-4 sdw3 


#END GROUP CUSTOMER 


5. 创 建 用 户 及 用 户 组 


创建 gpadmin 用 户 及 用 户 组 ， 将 其 作为 安装 Greenplum 的 操作 系统 用 户 。 


将 原 有 用 户 删 除 : 


#groupdel gpadmin 
#userdel gpadmin 


创建 新 的 用 户 和 用 户 组 : 


#groupadd -g 530 gpadmin 
#useradd -g 530 -u 530 -m -d /home/gpadmin -s /bin/bash gpadmin 


对 文件 夹 进行 赋 权 ， 为 新 用 户 创建 密码 : 


#chown -R gpadmin:gpadmin /home/gpadmin/ 
fpasswd gpadmin 

Changing password for user gpadmin. 

New UNIX password: 

Retype new UNIX password: 


.3 Greenplumzza& 


1. 安 装 数据 库 软 件 


读者 可 以 在 Greenplum 官 网 上 下 载 最 新 版 本 的 Greenplum， 下 载 地 址 是 : https: //network.gopivotal.com/products/pivotal-gpdb， 如 图 2-4 所 示 。 


p Pivotal Network PRODUCTS 


Pivotal Green plum Database Getthe latest Pivotal 


POWER YOUR BIG DATA ANALYTICS Greenplum Database 


View more product files below. 


s Get Files 


OVERVIEW 


Pivotal GPDB's architecture provides automatic parallelization of data loading and queries for high performance. Its self-healing, fault- 
tolerance capabilities deliver intelligent fault detection and fast online differential recovery, lowering your TCO and ensuring your cloud- 
scale systems have the highest levels of availability. The Pivotal GPDB architecture provides continuous real-time balancing of a clusters 
resources across all running queries optimally. With a diverse range of indexing, compression and partitioning options, Pivotal GPDB 
meets the needs of a wide variety of reporting and analytic workloads. lt also supports best-in-class mixed-workload management, and 
includes health monitoring and alerting through integrated email and SNMP notifications. 


View Technical Docs 


E2-A ”官方 网 站 Greenplum 下 载 页 面 
选择 相应 的 操作 系统 版 本 ， 比 如 RedHat 操 作 系 统 选择 "RHEL" ， 下 载 时 需要 在 网 站 上 注册 一 个 账号 ， 如 图 2-5 所 示 。 


读者 可 以 选择 自己 需要 的 版 本 下 载 ， 这 里 以 正式 版 本 Greenplum 4.1.1.1 为 例 ， 介 绍 如 何 安装 Greenplum。 
AVAILABLE FILES 
Q RHEL 


| Status $$ Name+ Release Date * Update Type € 
Greenplum Database 4.3 - Clients for RHEL4 4.3.0.0 Apr 01, 2014 Major release 
Hai è Greenplum Database 4.3 - PL/Perl Extension for RHELG 5.12.4 pv1.2 Apr 01, 2014 Major release 


Greenplum Database 4.3 - PL/Perl Extension for RHELS 5.12.4 py1.2 Apr 01, 2014 Major release 


2 222 
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Greenplum Database 4.3 - PL/Java Extension for RHEL 1.4.0 py1.1 Apr 01, 2014 Major release 


Greenplum Database 4.3 - PL/R Extension for RHEL B30.12 pylo — Apr o1, 2014 Major release 


Greenplum Database 4.3 - PostGIS Extension for RHEL 20.3 pv2.0 Apr 01, 2014 Major release 


2 2 


Greenplum Database 4.3 - Pgcrypto Extension for RHEL l.l pvli.i Apr 01, 2014 Major release 


Greenplum Database 4.3 - Partner Connector for RHEL 17 Apr 01, 2014 Major release 


Greenplum Database 4.3.0.0 Server for RHEL 5 & & Major release 


11- 13 of 13 (filtered from 55 total entries) {Previous | Next k 


Most recent download: Greenplum Database 4.3.0.0 Server for RHEIL 5& 6-4, 3.0.0 on Apr 22, Z014 | View all download history 


图 2-5 ”Greenplum 版 本 选择 


Quz Greenplum 最 新 版 本 是 Greenplum 4.3， 但 是 安装 方式 都 是 一 样 的 。 


首先 准备 好 安装 文件 : 


greenplum-db-4.1.1.1-build-1-RHEL5-x86 64.zip 


执行 unzip 命 令 解压 安装 文件 : 


unzip greenplum-db-4.1.1.1-build-1-RHEL5-x86 64.zip 


解压 后 生成 两 个 文件 : 
- README, INSTALL; 
- greenplum-db-4.1.1.1-build-1-RHELS5-x86, 64.bin. 


为 Greenplum 软 件 创 建安 装 目录 ， 并 且 赋 给 gpadmin 用 户 权限 : 


mkdir /opt/greenplum 
chown -R gpadmin:gpadmin /opt/greenplum 


执行 以 下 命令 开始 安装 软件 : 


./greenplum-db-4.1.1.1-build-1-RHEL5-x86 64.bin 


屏幕 上 会 出 现 License 的 一 些 信息 ， 按 “空格 ” 键 使 信息 显示 完全 ， 如 图 2-6 所 示 。 
确认 License 之 后 ， 接 着 出 现 如 图 2-7 所 示 的 信息 。 


输入 “yes” 后 会 提示 安装 目录 ， 我 们 选择 安装 在 /opt/greenplum/greenplum-db-4.1.1.1 下 面 ， 如 图 2-8 所 示 。 


You must s "ed accept in mE iUe Database p" agreement 
before installing 


E T T T 二 二 TT T T T T r E m pay sir sir Y YT Y Y T T Y sir sir yir TT sir r v T yir sir Y T E T E T T sir - T YT Y Y T ked T yir E TT TT T T T T 二 T i sir YT E sir T T sir sir YT TT E pay sir sir T Yu sir TT YT Y sir 
SOFTWARE LICENSE AND MAINTENANCE AGREEMENT 


*** IMPORTANT INFORMATION - PLEASE READ CAREFULLY —*** 


This Software contains computer programs and other proprietary material and 
information, the use of which is subject to and expressly conditioned upon ! 
acceptance of this Software License and Maintenance Agreement (the "Agreement" ). 


This Agreement is a EU binding document between you (meaning the individual 
person or the entity that the individual represents that has obtained the 
Software for its internal productive use and not for outright resale) (the 
"Customer") and EMC (which means (i) EMC Corporation, if customer is located in 
the united states; (11) the local EMC sales subsidiary, if customer is located 
in a country in which EMC Corporation has a local sales subsidiary; and (iii) 
EMC Information Systems International ("EISI"), if Customer is located outside 
the united states and in a LLL in which EMC Corporation does not have a 
local sales subsidiary). unless EMC agrees otherwise in siii this Agreement 
governs Customer's use of the software except to the extent all or amy portion 
of the software 15: (a) the subject of a separate written agreement; or (b) 
overned by a third party licensor's terms and conditions. Capitalized terms 
nave meaning stated in the Agreement. 


If Customer does not have a currently enforceable, written and separately signed 
software license agreement directly with EMC or the Distributor from whom 
Customer obtained this Software, then by clicking on the "Agree" or "Accept or 
similar button at the end of this Agreement, or proceeding with the 

installation, downloading, use or reproduction of this software, or authorizing 
any other person to do so, you are representing to EMC that you are (i) 
authorized to bind the customer: and ) agreeing on behalf of the customer 


图 2-6 ”安装 Greenplum 的 License 信 息 


"uc Eeee a a a a a A A a a a a vo ymocucumoccumcRc m ccc Rc oc mec Roco 


Do you accept the G Greenp lum Database license agreement? [yes|no] 


w r r e e a y a a a G A a a A A E e r e 21014241321 4231 421 4201415141444 442-4114 42421414221 41420-41141 01422011 410141422141 42-42-101 42011 4121214220 422-4) 


图 2-7 ”是 否 接受 License 


Provide the installation vag for Greenplum Database or press ENTER to 
ation path: /usr/local/greenplum-db-4.1.1.1 


accept the default instal 


/opt/greenplum/greenplum-db-4.1.1.1 does not exist. 
Create VOD O PEEL UNI UC PEDR THUIT UOS SE TT ? [yes|noa] 
(selecting no will exit the installer) 


LEE E EÀiE5b5bhbbhbbbÀR Rs ÀàbhRbi5bbiàs4lbibbbhbbiis4bbbbb5 bbs] bàibbibbihsbbisi5bbàSsidg 


yes 


图 2-8 选择 安装 目录 


完成 以 上 步骤 后 ， 软 件 开始 自动 安装 。 最 后 显示 软件 安装 成 功 ， 安 装 目录 如 图 2-9b 所 示 。 


TITTITTITTIIILIIILIIILIIILILLIIILIILILIILIILLIILIILIILILIIILIILIILIILIIIIIIILILILIILIIIIIII 


Installation complete. | 
Greenplum Database 1s installed in /opt/greenplum/greenplum-db-4.1.1.1 


Greenplum Database documentation is available in the /docs 
directory of your Greenplum installation and is also available 


for download on http://gpn. greenplum. com. 
LI 1E 11D PP PLPLPLITIPLIPITLIIPLPLPIPILLPILIPLIPLITILPILIPIPIPIPIIPPIPPIPILIIPIPLILILPLILPILLPILIPIIPLIIPIIPILIT 


a) 安装 成 功 的 提示 信息 


gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin | | 011 GPDB-LICENSE.txt 
gpadmin gpadmin ] |1 17:10 greenplum path. sh 
gpadmin gpadmin L1 
gpadmin gpadmin 
gpadmin gpadmin 1 3 May : 1 LICENSE.thirdparty 
gpadmin gpadmin y 1l: | 

gpadmin gpadmin 


3 
3 
3 
1 
1 
3 
J 
1 
7 
3 


b) 软件 目录 的 结构 


图 2-9 ”安装 后 的 Gteenplum 软 件 目录 


Greenplum 的 环境 变量 已 经 在 greenplum_path.sh 中 设置 了 ， 这 里 需要 应 用 一 下 这 个 环境 变量 配置 : 


source /opt/greenplum/greenplum-db/greenplum Path .sh 


配置 hostlist 文 件 ， 将 所 有 的 服务 器 名 记录 在 里 面 。 


[gpadminG(dw-greenplum-1 conf]$ cat hostlist 
mdw 
sdw1 
sdw2 
sdw3 


seg_hosts 只 保存 segment 节 点 的 hostname。 


[gpadminGdw-greenplum-1 conf]$ cat seg hosts 


sdwil 
sdw2 
Sdw3 


3. 使 用 gpssh-exkeys 打 通 所 有 服务 器 


使 用 gpssh-exkeys 将 所 有 机 器 的 通道 打开 ， 这 样 就 不 用 输入 密码 使 登录 在 每 台 机 器 之 间 跳 转 了 ， 代 码 如 下 : 


gpadmin@dw-greenplum-1 conf]$ gpssh-exkeys -f hostlist 
STEP 1 of 5] create local ID and authorize on local host 
STEP 2 of 5] keyscan all hosts and update known hosts file 
STEP 3 of 5] authorize current user on remote hosts 


[ 
[ 
[ 
[ 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... send to sdwl 
大 大 大 
*** Enter password for sdw1: 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... send to sdw2 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... send to sdw3 
[STEP 4 of 5] determine common authentication file content 
[STEP 5 of 5] copy authentication files to all remote hosts 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... finished key exchange with sdwl 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... finished key exchange with sdw2 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... finished key exchange with sdw3 
[INFO] completed successfully 


在 打通 所 有 机 器 通道 之 后 ， 我 们 就 可 以 使 用 gpssh 命 令 对 所 有 机 器 进行 批量 操作 了 。 


[gpadminG(dw-greenplum-1 conf]$ gpssh -f hostlist 
=> pwd 

[sdw3] /home/gpadmin 

[ mdw] /home/gpadmin 

[sdw1] /home/gpadmin 

[sdw2] /home/gpadmin 


4. 将 软件 分 友 到 每 一 台 机 器 上 


接 下 来 将 安装 后 的 文件 打包 : 


tar -cf gp4.l.tar greenplum-db-4.1.1.1/ 


然后 利用 gpscp 命 令 将 这 个 文件 复制 到 每 一 台 机 器 上 : 


gpscp -f /home/gpadmin/conf/hostlist gp4.l.tar -:/opt/greenplum 


使 用 gpssh 命 令 批量 解压 文件 包 : 


=> cd /opt/greenplum 
[sdw3] 


— tar -xf gp4.1.tar 


建立 软 连接 ， 如 图 2-10 所 示 。 


> in -s greenplum-db-4.1.1.1 gr eenp lum-db 
sdw3] 


total 153540 

-rw-rw-r-- 1 gpadmin gpadmin 157061120 Dec 11 17:24 gp4.1.tar 

lrwxrwxrwx 1 gpadmin gpadmin 20 Dec 11 17:26 greenplum-db -> greenplum-db-4.1.1.1 
drwxrwxr-x 11 gpadmin gpadmin 4096 Dec 17: greenplum-db-4.1.1.1 

total 153540 


-rw-rw-r-- 1 gpadmin gpadmin 157061120 Dec 11 17:24 gp4.1.tar 

lrwxrwxrwx 1 gpadmin gpadmin 22 Dec 11 17:10 greenplum-db -> ./greenplum-db-4.1.1.1 
drwxrwxr-x 11 gpadmin gpadmir: 4096 Dec 11 17:26 greenplum-db-4.1.1.1 

total 153540 

-rw-rw-r-- 1 gpadmin gpadmin 157061120 Dec 11 17:24 gp4.1.tar 

lrwxrwxrwx 1 gpadmin gpadmin 20 Dec L greenplum-db -> greenplum-db-4.1.1.1 
drwxrwxr-x 11 gpadmin gpadmin 4096 Dec 11 17:26 greenplum-db-4.1.1.1 

total 153540 

-rw-rw-r-- 1 gpadmin gpadmin 157061120 Dec 11 17:24 gp4.1.tar 

lrwxrwxrwx 1 gpadmin gpardmin 20 ner 11 17:26 greenplum-dh -> greenplum-dh-4.1.1.1 
drwxrwxr-x 11 gpadmin gpadmin 4096 Dec 11 17:26 greenplum-db-4.1.1.1 


图 2-10 ”建立 Greenplum 安 装 路 径 的 软 连接 


下 面 创 建 数据 库 数 据 目录 。 


- MASTER 目录: 


=> mkdir -p /home/gpadmin/gpdata/gpmaster 


Primaty 节 点 目录 : 


=> mkdir -p /home/gpadmin/gpdata/gpdatapl 
=> mkdir -p /home/gpadmin/gpdata/gpdatap2 


: Mirrot 节 点 目录 : 


=> mkdir -p /home/gpadmin/gpdata/gpdataml 
=> mkdir -p /home/gpadmin/gpdata/gpdatam2 


Gpmaster 目 录 保 存 Master 的 数据 ， 每 个 机 器 上 的 gpdatap1、gpdatap2 分 别 对 应 这 个 机 器 上 的 两 个 主 数据 节点 目录 ， 同 样 的 ，gpdatam1、gpdatam2 对 应 备 数据 节点 目录 。 
5. 配 置 ~/.bash_profile 


要 对 系统 的 环境 变量 进行 配置 ， 需 要 修改 ~/.bash_profile， 添 加 以 下 内 容 : 


source /opt/greenplum/greenplum-db/greenplum path.sh 

export MASTER DATA DIRECTORY-/home/gpadmin/gpdata/gpmaster/gpseg-1 
export PGPORT-2345 
export PGDATABASE-testDB 


其 中 greenplum_path.sh 保 存 了 运行 Greenplum 的 一 些 环境 变量 设置 ， 包 括 GPHOME、PYTHONHOME 等 设置 。 
6. 初 始 化 Greenplum 的 配置 文件 


配置 文件 的 模板 可 以 在 hGPHOME/docs/cli_help/gpconfigs/ 目 录 下 找到 。gpinitsystem_config 文 件 是 初始 化 Greenplum 的 模板 ， 在 这 个 模板 中 ，Mirror Segment 的 配置 都 被 注释 掉 了 ， 模 板 中 基本 
初始 化 数据 库 的 参数 都 是 有 的 。 


下 面 是 初始 化 的 配置 文件 initgp_config。 


# 数 据 库 的 代号 
ARRAY NAME-"Greenplum" 
MACHINE LIST FILE-/home/gpadmin/conf/seg hosts 
#Segment 的 名 称 前 绥 
SEG PREFIX-gpseg 
$Primary Segment 起 始 的 端口 号 
PORT BASE-33000 
# 指 定 Primary Segment 的 数据 目录 
declare -a DATA DIRECTORY= (/home/gpadmin/gpdata/gpdatapl /home/gpadmin/gpdata/gpdatap2) 
#Master 所 在 机 器 的 Hostname 
MASTER HOSTNAME-mdw 
# 指 定 Master 的 数据 目录 
MASTER DIRECTORY=/home/gpadmin/gpdata/gpmaster 
ter 的 端口 

MASTER PORT=2345 
# 指 定 Bash 的 版 本 
RUSTED SHELL-/usr/bin/ssh 

ENCODING-UNICODE 
Mirror Segment 起 始 的 端口 号 
工 E-43000 
Primary Segment 主 备 同 步 的 起 始 端口 号 
EPLICATION PORT BASE-34000 
Mirror Segment 主 备 同 步 的 起 始 端口 号 
[RROR REPLICATION PORT BASE-44000 
Mirror Segment 的 数据 目录 
declare -a MIRROR DATA DIRECTORY- (/home/gpadmin/gpdata/gpdataml /home/gpadmin/gpdata/gpdatam2) 
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7. 初 始 化 数据 库 


使 用 gpinitsystem 脚 本 来 初始 化 数据 库 ， 命 令 如 下 : 


gpinitsystem -c initgp config -s sdw3 


根据 脚本 出 现 的 提示 操作 即 可 ， 如 图 2-11 所 示 。 


pam iri- | INFO | : -aF BRARY PAIH 15 

padnin- [warn] -ulimit check 
gpadmin-[IMFO]:-Array host connect type 
gpadmin-[INFO]:-Master IP address 11 
gpadmin-[INFO]:-5tandby Master 
gpeadmin-[IM-O]:-Primary segment # 
gpadmin-[INFO]:-5tandby IP address 
goadmin-[IMF-O]:-TOotal Database segments 
gpadmin-[IMEO]:-Trusted shell 
gpadmin-[IMFO]:-Number segment hosts 
gpadmin-[riwr-Eo]:-wirror port base 
gnadmin-[INMFEO|:-Replicaton port hase 
gpadmin-[IMFOo]:-Mirror replicaton port base 
gpadmin-[INFO]:-Mirror segment # 
goadmin-[INFO]:-Mirroring config 
gpadmin- [INFO] :—-Mirroring t 

gpadmin- [INFO]: 

gpadmin- [INFO]: 

gpadmi n- [INFO] : 

gpadmin- [INFO] :-5dw1 /home /gpadmin/gpdara/gpdat apl1 /'q 
gpadmirn- [INFO] :-5 dw: /home /gpadmin/gpdara/gpdarape /qp: 
gnadmin- [INFO] :-sdw? /home 'apadmin/gpdar a/gpdat apt / 
gpadmin- [INFO] : /home/gpadmin/gpdat a/gpdat ap? / 
gpadmir- [INFO ]:-5dw3 / home, "gpadmin/gpdat a/gpdat apt / 
gpadmin- [INFO |] :-sdw: /home /gpadmin/gpdat a/gpdatap? / 
gpadmin- [INFO] : 

gpadmin- [INFO]: 

gaadmin- [INFO |: 

gnadmi n- [INFO | : «dw /home /gpadmin/gpdat a/gpdat amt 
gpadmin- [INFO] :-5dw?2 /home, ^gpadmin/gpdata/gpdatame /'gr 
gpadmin- [INFO] :-sd dhome; 'goadmin/gpdara/gpdar amt / 
gnadmin- [INFO | :-sdw3 /home/gpadmin/gpdata;/ 'qpdat am? / 
gpadmin- [IMFo]:-sdw1 Vas aniar a pal iy 'gpdat ami / 
gpadmirn- [INFO] :-sdw1 /home/gpadmin/gpdat a/gpdat am? / 


a) 数据 库 初 始 化 过 程 中 提示 的 Segment 信息 


/opt/qr eenp ium qr eenp I um-db, [1i 
Warnings generated, see log file maar 
Single hostname per node 
10.70.151.7 
Sdw3 
2 
10.70.151.10 
o 
fusr /bin/ssh 
3 
43000 
34000 
44000 


Hon dog Wo oH d dod 


34000 
34001 
34000 
34001 
34000 
34001 
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43000 8 
43001 9 

43000 10 
43001 11 
43000 12 
43001 13 


424000 
44001 
424000 
44001 
44000 
44001 
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]:-No db instance penc entering recovery startup mode 
:-Commencing parallel primary and mirror segment instance startup, please 


:-Process results... 
successful segment starts 


Failed segmnernt SrLarts P | m | 
skipped segment starts (segments are marked down in configuration) 


: -Starting Master instance inc-dw-hadoop-151-7.hst.bjc.kfc.alidc.net directory /home/gpadmin/g 


:-Command pg ctl reports Master inc-dw-hadoop-151-7/.hst.bjc.kfc.alidc.net instance active 


Database successfully started with no errors reported 


数据 库 初 始 化 成 功 


图 2-11 初始 化 数据 库 


这 样 ， 数 据 库 就 初始 化 成 功 了 ， 尝 试 登录 Greenplum 默 认 的 数据 库 postgres: 


[gpadmin@dw-greenplum-1 ~]$ psql -d postgres 
psqi (8.2.15) 
Type "help" for help. 
postgres-1 


createdb testDB -E utf-8 


没有 设置 PGDATABASE 这 个 环境 变量 时 ， 使 用 psql 进 行 登录 ， 默 认 的 数据 库 是 与 操作 系统 用 户 名 一 致 的 ， 这 时 候 会 报错 : 


[gpadmin@dw-greenplum-1 ~]$ psal 
psqi: FATAL: database "gpadmin" does not exist 


然后 设置 (export) 环境 变量 PGDATABASE=testDB， 这 样 就 默认 登录 testDB 数 据 库 : 


[gpadmin@dw-greenplum-1 ~]$ export PGDATABASE-testDB 
[gpadmin@dw-greenplum-1 ~]$ psal 

psqi (8.2.15) 

Type "help" for help. 


testDB-4 


查询 数据 库 版 本 并 创建 一 张 简单 的 表 : 


2.1 


testDB-4 select version(); 
version 

PostgreSQL 8.2.15 (Greenplum Database 4.1.1.1 build 1) on x86 64-unknown-linux-gnu, compiled by GCC gcc (GCC) 4.4.2 compiled on May 12 2011 18:07:08 
(1 row) 
testDB-4 create table testOl(id int primary key,name varchar (128)); 
NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "test01 pkey" for table "test01" 
CREATE TABLE 


5 ”数据 库 启动 与 关闭 


1. 启 动 数据 库 


Greenplum 提 供 一 系列 的 脚本 来 管理 数据 库 ， 其 中 gpstart 就 是 启动 数据 库 的 脚本 ， 我 们 可 以 用 gpstart-help 来 查看 帮助 ， 例 如 : 


[gpadmin@inc-dw-hadoop-151-7 ~]$ gpstart --help 
COMMAND NAME: gpstart 

Starts a Greenplum Database system. 

大 大 大 大 大 大 大 大 大 大 大 类 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 


SYNOPSIS 

大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 类 大 大 

gpstart [-d «master data directory»] [-B «parallel processes>] 
[-R] [4m] [-y] [-a] [-t «timeout seconds>] 

[-1 logfile directory] [7v | -q] 

gpstart -? | -h | --help 

gpstart --version 


一 般 用 gpstart-a 直 接 启动 数据 库 ， 不 用 输入 “yes”， 如 图 2-12 所 示 。 


[rNFO]:-5tarrirng gpstart with args: -a 

[INFO]:-Gathering information and validating the environment. 

[INFO]:-Greenplum Binary version. 'postgres ecce. lum Database) 4.1.1.1 build 1' 
L INFO]: -Greenp lum Catalog Version: '20110113 

[INFO] : -Starting Master Instance in admin sar 

[INFO] : -Obtaining Greenplum Master catalog information 

mies otto. 5egment details from master... 

INFO|:-Master Started... 

[INFO] : -Shutting down master 

[INFO] : -Starting standby master 


[INFO] :-checking if standby master is running on host: sdw3 in directory: /home/gpadmin/gpdara/gpmasrer /gps 


[INFO] :-No db instance pra is. entering recovery startup mode 
[INFO]: -commencing parallel primary and mirror segment instance startup, please wait. 


Process results... 
successful segment starts 
Failed segment starts | 
skipped segment starts (segments are marked down in configuration) 
fully started 12 of 12 segment instances 
[INFO]: -starting master instance inc-dw-hadoop-151-7.hsr.bjc.kfc.alidc.ner directory /home/gpadmin/gpdara/gp 


[INFO]: -command pq cr] reports master inc-dw-hadoop-151-7.hst.bjc.kfc.alidc.net instance actiwe 


[INFO] : -Database successfully started with no errors reported 
图 2-12 ”启动 数据 库 
2. 关 闭 数 据 库 


关闭 数据 库 的 脚本 是 gpstop， 其 使 用 方法 如 下 : 


COMMAND NAME: gpstop 
Stops or restarts a Greenplum Database system. 
大 大 大 大 大 大 大 大 大 大 大 类 大 大 类 大 大 大 大 大 类 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


SYNOPSIS 


炎炎 火炎 大 炎炎 类 大大 火炎 火炎 火炎 火炎 大 大 火炎 火炎 火炎 大 大 大 大 炎炎 火炎 火炎 大 类 大 大 火炎 火炎 火炎 大 大 大 大 大火 类 


gpstop [-d «master data directory>] [-B «parallel processes>] 
[-M smart | fast | immediate] [-t «timeout seconds>] 


[-r] [-y] [-a] [-1 «logfile directory»] [-v | -q] 
gpstop -m [-d «master data directory»] [-y] [-1 «logfile directory] 
[-v | -q] 
gpstop -u [-d «master data directory>] [-1 <logfile directory>] 
[-v | -q] 
gpstop --version 
gpstop -? -h | --help 


与 gpstart 一 样 ， 在 关闭 数据 库 时 ， 一 般 使 用 gpstop-a， 这 样 就 不 用 输入 “yes” 了 ， 如 图 2-13 所 示 。 


[INFO] :-5tarting gpstop with args: -a 

[INFO]:-Gathering information and validating the environment... 
[INFO]:-Obtaining Greenplum Master catalog information 

[IMFO]:-Obtaining Segment details from master... 

[IMFD]:-Greenplum version: 'postgres (Greenplum Database) 4.1.1.1 build 1' 
[INFO]:-There are 0 connections to the database 

[INFO]: -commencing master instance shutdown with mode-'smart"' 

[INFO] :-Master host-inc-dw-hadoop-151-7 hst.bjc. kfc. alidc.net 

[INFO ]:-Commencing Master instance shutdown with mode-smart 

[INFO]:-Master segment instance directory-/ ‘homey gpadmi n FOU: umo cO gus cgo 
[IMFO]:- -stoppin syncmaster on standby host sdw3 mode-fast 

[INFO] : -SUCCeS 人 shutdown sync process on sdw3 

[INFO]:-Commencing parallel primary segment instance shutdown, please wait. 


[INFO] : -Commencing parallel mirror segment instance shutdown, please wait... 


- [INFO]: 

HAT: segments stopped successtully 
INFO]: segments with errors during stop 
[INFO]: 
[INFO]:-successfully shutdown 12 of 1? segment instances 

[INFO ]:-Database successfully shutdown with no errors reported 


图 2-13 关闭 数据 库 


2.2 ”安装 Greenplum 的 常见 问题 


安装 Greenplum 最 常见 的 错误 就 是 环境 变量 设置 错误 ， 网 卡 配 置 错误 ， 或 者 是 每 个 egment 的 通道 或 网 络 没 有 打通 。 


如 果子 节点 的 操作 系统 环境 不 一 样 ， 也 可 能 会 导致 各 种 各 样 的 错误 。 所 以 在 搭建 环境 的 时 候 ， 要 求 每 一 台 机 器 的 配置 基本 一 样 ， 方 便 以 后 管理 与 维护 ， 避 免 一 些 奇怪 的 问题 。 下 面 将 介绍 几 个 常见 的 报 
错 及 处 理 方法 。 


2.2.1 /etc/hosts 配置 错误 


现在 来 看 一 个 奇怪 的 报错 SQL， 查 询 一 张 普通 表 时 报 如 下 错误 ， 但 是 查询 数据 字典 又 不 报错 : 


testDB-4 select * from test002; 

WARNING:  Greenplum Database detected segment failure(s), system is reconnected 
WARNING: Greenp] lum Database detected segment failure(s), system is reconnected 
ERROR: No primary gang allocated (cdbgang.c:16035) 

testDB=# select count(1) from pg class; 


E 


报 这 个 错误 是 因为 Master 连 接 不 到 3egment。 如 果 原 先是 一 个 正常 的 系统 ， 突 然 报 错 了 ， 就 要 想 想 是 否 修改 了 什么 导致 的 。 在 这 个 例子 中 ， 是 因为 修改 了 /etc/hosts， 不 小 心 将 : 


10.20.151.8 inc-dw-hadoop-151-8 sdw1 


改 成 了 : 
10.20.151.18 inc-dw-hadoop-151-8 sdw1 


Master 连 接 Segment 的 时 候 连 接 不 上 ， 就 报 了 这 个 错误 ， 但 是 pg_class 是 每 一 个 节点 都 有 的 ， 而 Master 上 的 数据 只 需要 在 Master 上 查询 ， 不 用 连接 Segment， 所 以 没有 报错 ， 只 需 将 配置 修改 回来 即 


有 些 时 候 ， 也 可 以 利用 这 个 方法 来 判断 一 个 操作 是 否 需 要 与 Master 交 互 ， 比 如 生成 执行 计划 (关于 执行 计划 的 详细 内 容 可 阅读 第 5 章 ) 是 否 只 在 Master 上 执行 ， 与 Segment 有 没有 交互 : 


testDB=# explain select * from test002; 
WARNING:  Greenplum Database detected segment failure(s), system is reconnected 
WARNING:  Greenplum Database detected segment failure(s), system is reconnected 
ERROR: No primary gang allocated (cdbgang.c:1635) 
testDB-4 explain select count(1) from pg class; 

QUERY PLAN | 

Aggregate  (cost-39.20http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..39.21 rows-l width-0) 

-> Seq Scan on pg class  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..20.48 rows-7488 width-0) 
(2 rows) 


34. 


这 样 就 可 以 看 出 ， 生 成 分 布 式 执行 计划 也 是 需要 与 Segment 进 行 交互 的 。 那 么 为 什么 下 面 生 成 pg_class 的 执行 计划 不 会 报错 呢 ? 这 是 因为 表 test002 是 业务 数据 ， 数 据 分 布 在 segment 上 ， 生 成 的 执行 
计划 是 分 布 式 的 ， 而 pg_class 是 保存 表 元 数据 信息 的 数据 字典 ， 数 据 保 存在 Master 上 ， 生 成 的 执行 计划 是 单机 的 ， 详 见 第 5 章 执 行 计 划 。 


Qum 在 Greenplum 4.3 中 ， 这 个 报错 是 : ERROR: Unexpected internal error (cdbgang.c: 1622) 。 报 错 的 内 容 与 原因 都 是 一 样 的 ， 只 是 在 显示 上 Greenplum 4.1 5 Greenplum 4.3 有 所 区 别 。 


在 Greenplum 3.3.x 版 本 中 ， 如 果 修 改 了 Master 的 /etc/hosts 配 置 ， 将 : 


127.0.0.1 localhost  localhost.localdomain 


背 写 成 : 


127.0.0.1 localhost  localhost.localdomain mdw 


么 还 会 有 如 下 的 奇怪 现象 帮 生 。 


在 创建 表 的 时 候 Master 没 有 报错 ， 说 明 Master 与 Segment 是 可 以 通信 的 ， 但 是 查询 这 张 表 的 时 候 就 会 报 如 下 的 错误 : 


testDB-4 create table aaa(like bbb); 

NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table 
CREATE TABLE 
testDB =# select * from bbbb; 
ERROR: Interconnect timeout: Unable to complete setup of all connections within time limit. 
DETAIL: Completed 2 of 6 incoming and 0 of 0 outgoing connections. 
gp interconnect setup timeout = 20 seconds. 


音 误 提 示 已 经 超时 了 ， 建 议 将 超时 时 间 设 置 大 一 点 ， 但 是 修改 相关 参数 还 是 没有 用 。 其 实 是 因为 Segment 在 连接 到 Master 的 时 候 使 用 的 IP 是 127.0.0.1， 指 定 到 了 本 地 机 器 ， 导 致 Segment 连 接 不 到 
Master， 故 报 出 这 个 错误 。 将 Master 连 接 到 Segment 就 没有 问题 ， 因 此 将 对 应 的 /etc/hosts 修 改 回 来 就 可 以 了 。 


Qi 将 /etc/hosts 改 回来 之 后 ， 进 行 查询 后 还 是 报 同样 的 错 ， 这 是 因为 当前 连接 还 没有 生效 ， 要 退出 当前 的 session， 重 新 连接 Greenplum 才 行 。 
Greenplum 内 部 会 有 很 多 的 网 络 通信 交互 ， 因 此 建议 将 操作 系统 的 防火 墙 关闭 ， 避 免 各 种 奇怪 的 问题 ， 其 中 防火 墙 就 会 引起 本 节 介 绍 的 在 Greenplum 3.3.x 版 本 中 遇 到 的 问题 
2.2.2 MASTER_DATA_DIRECTORY 设 置 错误 
没有 设置 MASTER_DATA_DIRECTORY ， 会 报 这 样 的 错误 : 


[gpadmin8dw- greenplum-1 ~]$ gpstop 


20120110:11:16:52:gpstop:dw-greenplum-1:gpadminl-[INFO]:-Starting gpstop with args: '' 
20120110:11:16:52:9gpstop:dw-greenplum-1:gpadminl-[INFO]:-Gathering information and validating the environmenthttp://www.hzcourse.com/resource/readBook?path-/openresources/teact 
20120110:11:16:52:gpstop:dw-greenplum-1:gpadminl-[CRITICAL]:-gpstop failed. (Reason-'Environment Variable MASTER DATA DIRECTORY not set!') exitinghttp://www.hzcourse.com/resour 


这 样 会 导致 MASTER_DATA_DIRECTORY 参 数 的 目录 设置 错误 : 


[gpadminGdw-greenplum-1 ~]$ echo SMASTER DATA DIRECTORY 
/ home /qpadmin/gpdata/gpmaster /gpseg-1 
[gpadmin(dw-greenplum-] ~]$ export MASTER DATA DIRECTORY-/home/gpadmin/gpdata/gpmaster/gpseg1 
[gpadmin8dw- greenplum-] ~]$ gpstop 


20120110:11:19:43:gpstop:dw-greenplum-1:gpadmin-[INFO]:-Starting gpstop with args: 
20120110:11:19:43:gpstop:dw-greenplum-1:gpadmin-[INFO]:-Gathering information and validating the environmenthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach 
20120110:11:19:43:gpstop:dw-greenplum-1:gpadmin-[CRITICAL]:-gpstop failed. (Reason-'[Errno 2] No such file or directory: '/home/gpadmin/gpdata/gpmaster/gpsegl/postgresql.conf'' 


在 初始 化 数据 库 的 时 候 要 多 注意 环境 变量 的 设置 ， 如 果 环 境 变量 设置 不 当 ， 很 容易 造成 数据 库 初始 化 错误 。 


2.3 WrGreenplum 
本 节 只 介绍 一 些 常 用 的 命令 ， 是 Greenplum 特 有 的 一 些 命令 ， 而 对 于 一 般 数 据 库 都 具备 的 特性 及 SQL 标 准 语法 ， 本 节 提 到 的 比较 少 ， 因 此 要 求 读者 在 阅读 本 节 具 备 一 定 的 SQL 基 础 。 
2.3.1 如 何 访问 Greenplum 


1.psql 


psql 是 Greenplum/PostgreSQL 默 认 的 客户 端 ， 前 面 初始 化 数据 库 的 时 候 已 经 使 用 过 了 ， 下 面 介绍 一 些 详细 的 用 法 。 


[gpadminG(dw-greenplum-1 ~]$ psql --help 
This is psql 8.2.15, the PostgreSQL interactive terminal (Greenplum version). 


Usage: 

psql [OPTION]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... [DBNAME [USERNAME] ] 
General options: 

-Cc, --command-COMMAND run only single command (SQL or internal) and exit 

-d, --dbname-DBNAME database name to connect to (default: "testDB") 


Connection options: 
-h, --host-HOSTNAME database server host or socket directory (default: "local socket") 
-p, --port-PORT database server port (default: "2345") 

-U, --username-USERNAME database user name (default: "gpadmin") 


我 们 可 以 在 其 他 机 器 上 使 用 psql 连 接 到 数据 库 中 ， 例 如 : 


admin8testl:/home/admin»psql -h 10.20.151.7 -p 2345 -d testDB -U gpadmin 
psql: FATAL: no pg hba.conf entry for host "10.20.151.1", user "gpadmin", database "testDB", SSL of 


之 所 以 报错 ， 是 因为 Greenplum 有 权限 控制 ， 并 不 是 所 有 的 机 器 都 可 以 连接 到 数据 库 上 。 关 于 如 何 配置 权限 控制 ， 会 在 “第 9 章 数据 库 管 理 ” 的 前 两 节 详 细 介绍 。 如 果 有 其 他 计算 机 要 登录 
Greenplum， 先 为 数据 库 用 户 gpadmin 创 建 一 个 密码 ， 然 后 在 pg_hba.conf 文 件 中 增加 客户 端 机 器 的 权限 配置 ， 这 样 就 可 以 成 功 登录 了 


testDB-4 alter role gpadmin with password 'gpadmin'; 
ALTER ROLE 


接着 在 $MASTER DATA DIRECTORY/pg _hba.conf 文 件 中 增加 : 


host testDB gpadmin 10.20.151.1/32 md5 


之 后 通过 gpstop-u 命 令 使 配置 生效 ， 如 图 2-14 所 示 。 


INFO]:-Starting gpstop with args: -u 
INFO]:-Gathering information and validavring the environment... 
:-Obtaining Greenplum Master catalog 1nftormation 


:-Obtaining Segment details from master... | | 
:-Greenplum version: postgres (Greenplum Database) 4.1.1.1 build 1 
x1 | postmasters processes ro reloa 


图 2-14 使 用 gpstop-u 重 新 加 载 配置 


这 样 我 们 就 可 以 在 其 他 机 器 上 登录 数据 库 了 。 


adminGtestl:/home/admin»psql -h 10.20.151.7 -p 2345 -d testDB -U gpadmin -W 
Password for user gpadmin: 

psql (8.2.13, server 8.2.15) 

Type "help" for help. 

testDB-4 


2.pgAdmin 

当然 ， 除 了 采用 psql 的 登录 方法 之 外 ， 还 可 以 利用 图 形 界面 的 GUI， 就 是 pgAdmin 这 款 软件 。 我 们 可 以 从 http://www.pgadmin.org/download/ 这 个 网 址 上 下 载 pgAdmin。 
这 里 以 Windows 为 例 ， 介 绍 下 pgAdmin 软 件 的 安装 及 使 用 。 

首先 ， 下载 pgadmin3-1.14.1.zip 后 将 其 解压 并 进行 安装 。 


然后 ， 启 动 pgAdmin， 自 动弹 出 “新 增 服务 器 登记 ”界面 ， 如 图 2-15 所 示 。 


E ede: 


10.20.151.7 


2345 


HAERE — FestDR 
A Pb gpadmin 


angu TELITI) 


保存 密码 区 


图 2-15 PegAdmin 新 增 配置 界面 


接 下 来 单 击 “ 确 认 ”″” 按 钮 创建 连接 ， 登 录 到 Greenplum 数 据 库 中 (需要 在 pg_hba.conf 中 将 本 机 的 IP 加 入 认证 ) 。 


"W poAdminll | - E 
AAF) SREE) S E 工具 (T) 帮助 (H) : 


EP Onno OER P t- 


| [E EE s i OOOO 附属 关系 


Fert 1B - 
EE testDB 

ESI OID 16092 
ESL 所 有 者 gpadmin 
ES] ACL 

PE] pg default 
Hrg pg default 
CERES UTFB 
ids 


| B- îi TAR 1] 
E- d Ireenplum (10.20.151.7:2345) 
jp (3) 


-—— -—Á l F7 = -— 


T T. 数据 志 (2) 
| H- tact E E EEEE EEEN EEE EEE SEREEN EAEE REEERE EEEE REESE ASEE EE 
: 由 - 国 testo - 
Spp (0) 

A. (0) 


-— Database: 


"testIB" 


-— DROP DATABASE 


"tcstDBP" ; 


CREATE DATABASE "testDB" 
WIIH OWNER = qpadmin 
ENCODING = 'UIFS' 
TABLESPACE = pg default 
CONNECTION LIMIT = -1; 


cp (1) 
EASI (1) 


IETEREMRTLQEUUPRIR RS public... 元 


图 2-16 ”PgAdmin 连 接 成 功 后 的 界面 


单 击 图 2-16 中 的 县， 弹出 如 图 2-17 所 示 的 pgAdmin SQL 编辑 器 界面 ， 我 们 就 可 以 在 其 中 编写 SQL 查询 语句 了 。 


ees rj mme le | HEERA ; 


cremte table testil {a int,b text) distributed by (n): 
insert into testÜl valuea([1,'hello'];z 

insert into testÜl values(1,"'wn»rld']: 

insert into tesatÜl values(2,'haha'], (3,'hehe'); 


select * from testūl: 


WEGE * Uni fp 7. 9| 1: 字符 203 4 行 。 320 ms 


图 2-17 pgAdmin SQL 编辑 器 界面 
2.3.2 ”数据 库 整 体 概况 


本 小 节 稍 微 介 绍 一 下 Greenplum 的 数据 分 布 ， 以 方便 读者 理解 Greenplum 的 一 些 操作 。 


1.Greenplum 基 于 PostgreSQL 开 发 


Greenplum 是 基于 开源 数据 库 软件 PostgreSQL 8.2 开 发 的 ， 其 大 部 分 语法 和 数据 字典 都 与 PostgreSQL 一 样 ， 很 多 工具 使 用 的 规范 也 基本 跟 PostgreSQL 一 样 。 因 此 ， 在 学 习 的 过 程 中 ， 可 以 参考 网 上 的 
一 些 PostgreSQL 的 资料 。 强 烈 建 议 参考 PostgreSQL 8.2 的 官方 中 文 文档 ， 其 中 大 部 分 内 容 都 适用 于 Greenplum.。 


2.Greenplum 的 数据 分 布 
可 以 说 Greenplum 将 PostgreSQL 改 造成 一 个 分 布 式 数据 库 。 其 中 ，Segment 节 点 都 是 一 个 单独 的 PostgreSQL 数 据 库 ，Master 本 身 也 是 一 个 PostgreSQL 数 据 库 。 


Master 本 身 不 储存 数据 ， 所 有 数据 拆 分 保存 到 每 一 个 节点 上 。 在 指定 分 布 键 的 时 候 ， 数 据 按照 分 布 键 的 Hash 值 来 分 布 数据 ， 称 为 哈 希 分 布 。 还 有 一 种 分 布 不 用 指 


定 分 布 键 , 数据 随机 分 布 到 每 一 个 
点 上 ， 称 作 随 机 分 布 (也 叫 平均 分 布 ) 。 


以 一 张 Student 表 为 例 ， 它 在 Greenplum 中 的 数据 分 布 如 图 2-18 所 示 。 


图 2-18 Student 表 在 Greenplum 中 的 数据 分 布 


2.3.3 ”基本 语法 介绍 
Greenplum 是 一 个 很 全 面 的 数据 库 ， 提 供 了 很 多 的 功能 。 如 果 将 所 有 语法 都 讲 一 遍 ， 篇 幅 会 很 大 ， 所 以 这 里 只 将 一 些 基 本 的 语法 简单 罗列 一 下 。 
1. 获 取 语 法 介绍 
可 以 使 用 \h 查 看 Greenplum 支 持 的 所 有 语法 ， 如 图 2-19 所 示 。 


在 psql 中 使 用 \h command 可 以 获取 具体 命令 的 语法 : 


testDB=# \h create view 

Command: CREATE VIEW 

Description: define a new view 

Syntax: 

CREATE [ OR REPLACE ] [ TEMP | TEMPORARY ] V] 
AS query 


[EW name [ ( column name [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/ 


testDB-£s XH 
e help: 


Awva1labl 
ABORT 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 


AGGREGATE 
CONVERSION 

DATABASE 

DOMAIN 

EXTERNAL TABLE 
FILESPACE 

FOREIGN DATA WRAPPERKR 
FUNCTION 

GROUP 

INDEX 

LANGUAGE 

OPERATOR 

OPERATOR CLASS 
RESOURCE QUEUE 


CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 


GROUP 

INDEX 

LANGUAGE 
OPERATOR 
OPERATOR CLASS 
RESOURCE QUEUE 
ROLE 

RULE 

SCHEMA 
SEQUENCE 
SERVER 

TABLE 

TABLE AS 
TABLESPACE 
TRIGGER 


DROP 
DROP 
DROP 
DROP 
DROP 
DROP 
DROP 


END 


TABLE 
TABLESPACE 
TRIGGER 

TYPE 

USER 

USER MAFPING 
VIEW 


EXECUTE 
EXPLAIN 
FETCH 
GRANT 
INSERT 
LISTEN 
LOAD 


ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER 
ALTER USER 

ALTER USER MAPPING 
ANALYZE 

BEGIN 

CHECKPOINT 

CLOSE 
CLUSTER 
COMMENT 
COMMIT 
COMMIT 
COPY 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 
CREATE 


ROLE 

aC HEMA 
SEQUENCE 
SERVER 
TABLE 
TABLESPACE 
TRIGGER 
TYPE 


CREATE 
CREATE 
CREATE USER MAPPING 
CREATE VIEW 
DEALLOCATE 

DEC | ARE 

DELETE 

DROP AGGREGATE 

DROP CAST 

DROP CONVERSION 
DROP DATABASE 
DROP DOMAIN 
DROP EXTERNAL 
DROP FILESPACE 
DROP FOREIGN DATA WRAPPER 
DROP FUNCTION 

DROP GROUP 

DROP INDEX 

DROP LANGUAGE 

DROP OPERATOR 

DROP OPERATOR CLASS 

DROP OWNED 

DROP RESOURCE QUEUE 

DROP ROLE 

DROP RULE 

DROP SCHEMA 

DROP SEQUENCE 

DROP SERVER 


TYPE 
USER 


LOCK 

MOWE 

NOTIFY 

PREPARE 

PREPARE TRANSACTION 
REASSIGN OWNED 
REINDEX 

RELEASE SAVEPOINT 
RESET 

REVOKE 

RIDE L BACK. 

ROI LBACK PREPARED 
ROLLBACK TO SAVEPOINT 
SAVEPOINT 

SELECT 

SELECT INTO 

SET 
SET 
SET 
SET 
SET 
SHOW 
START TRANSACTION 
TRUNCATE 
UNLISTEN 

UPDATE 

VAC UUM 

V.AL UE 5 


TABLE 


PREPARED CONSTRAINTS 
ROLE 
SESSION AUTHORIZATION 


TRANSACTION 


AGGREGATE 

CAST 

CONSTRAINT TRIGGER 
CONVERSION 

DATABASE 

DOMAIN 

EXTERNAL TABLE 
FOREIGN DATA WRAPPER 
FUNCTION 


图 2-19  Greenplum x 4$ 8$ 9SQLij&;X 


2.CREATE TABLE 


GreenplumFPBSgzei8 S] ER ERE AGREE E zer SU X BUT, (087 V1 3875 SAAE. 
: 在 Greenpblum 中 建 表 时 需要 指定 表 的 分 布 键 。 

. 如 果 表 需要 用 某 个 字段 分 区 ， 可 以 通过 battition by 将 表 建 成 分 区 表 。 

: 可 以 使 用 like 操 作 创建 与 like 的 表 一 样 结构 的 表 ， 功 能 类 似 cteate table t1 as select*from t2 limit 0。 
. 可 以 使 用 inhetits 实 现 表 的 继承 ， 具 体 的 实现 可 以 参考 postgreSQL 文档 。 


在 Greenplum 中 ， 建 表 语句 的 语法 大 致 如 下 : 


Command: CREATE TABLE 
Description: define a new table 
Syntax: 
CREATE 


[[GLOBAL | LOCAL] (TEMPORARY | TEMP}] TABLE table name ( 
[ ( column name data type [DEFAULT default expr] 

[column constraint [ http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ]] 
| table constraint 
| LIKE other table [(INCLUDING | EXCLUDING} 

{DEFAULTS | CONSTRAINTS)] http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]) 
[, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/... ] ] ) 
NHERITS ( parent table [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/... ] ) ] 
WITH ( storage parameter-value [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ] ) 
ON COMMIT (PRESERVE ROWS | DELETE ROWS | DROP) ] B 
TABLESPACE tablespace ] 
DISTRIBUTED BY (column, [ http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ] ) | DISTR 
PARTITION BY partition type (column) E 
[ SUBPARTITION BY partition type (column) ] 
[ SUBPARTITION TEMPLATE ( template spec ) ] 
[http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...] 
( partition spec ) i 
| [ SUBPARTITION BY partition type (column) ] 
[http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/...] 
( partition spec 
[ ( subpartition spec 
[ (http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...)] 


BUTED RANDOMLY ] 


L— r3 r3 c3 cw 


由 于 Greenplum 是 一 个 分 布 式 数据 库 ， 数 据 肯 定 是 分 布 在 每 一 个 节点 上 的 。 在 Greenplum 中 有 两 种 数据 分 布 策略 : 


1) Hash 分 布 。 指 定 一 个 或 多 个 分 布 键 ， 计 算 hash 值 ， 并 且 通 过 hash 值 路 由 到 特定 的 Segment 节 点 上 ， 语 法 为 Distributed by (http;//www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..) 。 如 果 不 指 定 分 布 键 ， 默 认 将 第 一 个 字段 作为 分 布 键 。 


2) 随机 分 布 ， 也 叫 平 均 分布 。 数 据 随机 分 散在 每 一 个 节点 中 ， 这 样 无 论 数据 是 什么 内 容 ， 都 可 以 平均 分 布 在 每 个 节点 上 ， 但 是 在 执行 SQL 的 过 程 中 ， 关 联 等 操作 都 需要 将 数据 重 分 布 ， 性 能 较 差 。 语 法 
为 在 表 字段 定义 的 后 面 加 上 Distributed randomly, 


下 面 两 个 建 表 语 句 的 执行 结果 一 样 ， 都 是 以 id 作 为 分 布 键 : 


testDB-4 create table test001 (id int ,name varchar (128)); 
NOTICE: Table doesn't have 'DISTRIBUTED BY' clause -- Using column named 'id' as the Greenplum Database data distribution key for this table. 


HINT: The 'DISTRIBUTED BY' clause determines the distribution of data. Make sure column(s) chosen are the optimal data distribution key to minimize skew. 
CREATE TABLE 

testDB-4 create table test002(id int ,name varchar(128)) distributed by (id); 

CREATE TABLE 


在 下 面 的 建 表 语句 中 指定 了 多 个 分 布 键 


testDB-4 create table test003(id int ,name varchar(128)) distributed by (id,name); 
CREATE TABLE 


在 下 面 的 建 表 语 句 中 采用 了 随机 分 布 : 


testDB-4 create table test004(id int ,name varchar(128)) distributed randomly; 
CREATE TABLE 


采用 随机 分 布 策略 的 表 默 认 将 主键 或 唯一 键 作为 分 布 键 ， 因 为 每 一 个 egment 都 是 一 个 单一 的 数据 库 ， 单 个 的 数据 库 可 以 保证 唯一 性 ， 多 个 数据 库 节 点 就 无 法 保证 全 局 的 跨 库 唯一 性 ， 故 只 能 按照 唯一 
键 分 布 ， 同 一 个 值 的 数据 都 在 一 个 节点 上 ， 以 此 来 保证 唯一 性 。 


testDB-4 create table test005(id int primary key,name varchar (128)); 
NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "test005 pkey" for table "test005" 


CREATE TABLE 

testDB-4 create table test006(id int unique,name varchar (128)); 

NOTICE: CREATE TABLE / UNIQUE will create implicit index "test006 id key" for table "test006" 
CREATE TABLE 


如 果 指 定 的 分 布 键 与 主键 不 一 样 ， 那 么 分 布 键 会 被 更 改 为 主键 : 


testDB-4 create table test007(id int unique,name varchar(128)) distributed by(id,name); 
NOTICE: updating distribution pol icy to match new unique index 

NOTICE:  CRE ATE TABLE / UNIQUE will create implicit index "test007 id key" for table "test007" 
CREATE TABLE nS 
testDB-4 Xd test007 
Table "public.test007" 


Column | Type | Modifiers 
i i 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 
id | integer | 

name | character varying (128) | 

Indexes: 


"test007 id key" UNIQUE, btree (id) 
Distributed by: (id) 


在 创建 表 的 时 候 ， 如 果 要 建 一 张 表 结构 一 模 一 样 的 表 ， 可 以 利用 create table like 命 令 : 


testDB-4 create table test001 like (like test001); 
NOTICE: Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table 
CREATE TABLE 


使 用 like 创 建 的 表 ， 只 是 表 结 构 会 与 原 表 一 模 一 样 ， 表 的 一 些 特殊 属性 并 不 会 一 样 ， 例 如 压缩 、 只 增 (appendonly) 等 属性 。 如 果 不 指 定 分 布 键 ， 则 默认 分 布 键 与 原 表 一 样 。 


3.SELECT 


Greenplum 中 的 SELECT 操作 基本 上 与 普通 关系 型 数据 库 中 的 SELECT 操作 没有 太 大 的 区 别 。 要 了 解 SQL 的 执行 计划 ， 对 于 Greenplum 而 言 ， 重 点 要 了 解 分 布 式 执行 计划 ， 这 个 具体 会 在 “第 5 章 执 行 计 
划 详 解 ”中 详细 介绍 


下 面 介绍 SELECT 语 句 的 语法 。SELECT 语 句 的 基本 语法 跟 其 他 数据 库 类 似 ， 也 有 自己 的 一 些 特 性 ,例如 分 页 采用 offset 加 limit 操 作 : 


Command: SELECT 

Description: retrieve rows from a table or view 

Syntax: 

SELECT [ ALL | DISTINCT [ ON ( expression [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ) ] ] 
* | expression [ [AS] output name ] [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...] 

[ FROM from item [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ] 

[ WHERE condition ] 

[ GROUP BY grouping element [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] | 

[ HAVING condition [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ] 

[ WINDOW window name AS (window specification) ] i 

[ ( UNION | INTERSECT | EXCEPT } [ ALL ] select |] 

[ ORDER BY expression [ ASC | DESC | USING operator ] [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ] 

[ LIMIT ( count | ALL ) ] 

[ OFFSET start ] 

[ FOR { UPDATE | 


SHARE ) [ OF table name [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ] [ NOWAIT ] [http: 


一 个 简单 的 示例 如 下 
testDB-4 select id,name from test001 order by id; 
id | name 
ma E 
100 | jack 
101 | david 
102 | tom 
103 | lily 
(4 rows) 


SELECT 可 以 不 用 指定 From 子 句 ， 如 执行 函数 : 


testDB-4 select greatest (1,2); 
greatest 


(1 row) 


进行 一 些 简单 的 科学 计算 等 : 


testDB-4 select 2^3+3+9* (841); 
?column? 


需要 注意 的 是 ，Greenplum 的 数据 切 分 放 在 所 有 的 segment 上。 当 从 一 个 表 查 询 数据 的 时 候 ，Master 的 数据 展现 顺序 是 以 Master 先 接收 到 的 数据 的 顺序 ， 每 个 egment 的 数据 到 达 Master 的 顺序 是 
随机 的 ， 不 是 固定 的 ， 所 以 执行 SELECT 的 结果 的 顺序 是 随机 的 ， 即 使 表 中 数据 一 点 变化 都 没有 。 这 一 点 跟 其 他 数据 库 是 不 一 样 的 ， 下 面 是 两 次 执行 SELECT 的 结果 ， 从 中 明显 可 以 看 出 数据 的 顺序 是 不 一 样 
的 。 如 果 要 求 多 次 查询 的 结果 一 样 ， 必 须 显 式 地 加 一 个 order by 语句 ， 强 制 输出 的 结果 排序 。 


下 面 是 连续 两 次 对 同一 个 表 执 行 查询 操作 的 结果 (中 间 数 据 没 有 发 生 过 任何 变更 ) ， 可 以 看 出 ， 如 果 不 加 order by 子 句 ， 在 查询 的 结果 中 ， 数 据 的 顺序 是 不 能 够 保证 的 。 


testDB-4 select * from test001; testDB-4 select * from test001; 
id | name id | name 
€€—— 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 
101 | david 101 | david 
103 | lily 100 | jack 
100 | jack 102 | tom 
102 | tom 103 | lily 
(4 rows) (4 rows) 


4.create table as 与 select into 


create table as 与 select into 有 一 样 的 功能 ， 都 可 以 使 表 根 据 直接 执行 SELECT 的 结果 创建 出 一 个 新 的 表 ， 这 个 在 临时 分 析 数 据 的 时 候 十 分 方便 。 例 如 ， 在 创建 一 个 表 的 时 候 如 果 默 认 不 指定 分 布 键 ， 那 
么 Greenplum 根 据 执行 SELECT 得 到 的 结果 集 来 选择 ， 不 用 再 次 重 分 布 数据 的 字段 作为 表 的 分 布 键 : 


testDB-4 create table test2 as select * from testl; 

NOTICE: Table doesn't have 'DISTRIBUTED BY' clause -- Using column(s) named 'id' as the Greenplum Database data distribution key for this table. 

HINT: The 'DISTRIBUTED BY' clause determines the distribution of data. Make sure column (s) chosen are the optimal data distribution key to minimize skew. 
SELECT 10000 


当然 ， 也 可 以 手工 加 入 distributed 关 键 字 ， 指 定 分 布 键 ， 这 样 数据 就 会 根据 指定 分 布 键 再 建 表 : 


testDB-4 create table test3 as select * from testl distributed by(id); 
SELECT 10000 


select into 的 语法 比 create table as 更 简单 ， 虽 然 功 能 一 样 ， 但 是 执行 select into 不 能 指定 分 布 键 ， 只 能 使 用 默认 的 分 布 键 ， 例 如 : 


testDB-4 select * into test4 from testi; 

NOTICE: Table doesn't have 'DISTRIBUTED BY' clause -- Using column(s) named 'id' as the Greenplum Database data distribution key for this table. 

HINT: The 'DISTRIBUTED BY' clause determines the distribution of data. Make sure column (s) chosen are the optimal data distribution key to minimize skew. 
SELECT 10000 


5.explain 
explain 用 于 查询 一 个 表 的 执行 计划 ， 它 在 SQL 优化 的 时 候 经 常 要 用 到 ， 详 细 的 执行 计划 解释 请 参考 “第 5 章 执 行 计划 详解 ”。 


下 面 代码 演示 了 简单 的 执行 计划 的 查看 方法 : 


testDB-4 explain select * from testl x,test2 y where x.id-y.id; 
QUERY PLAN 
Gather Motion 6:1  (slicel; segments: 6)  (cost-243.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..511.00 rows-16€ 


-> Hash Join  (cost-243.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..511.00 rows-1667 width-30) 
Hash Cond: x.id = y.id 
-> Seq Scan on testl x  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..118.00 rows-1667 width-15) 
-> Hash  (cost-118.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..118.00 rows-1667 width-15) 
-> Seq Scan on test2 y  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..118.00 rows-1667 wic 


(6 rows) 


可 以 看 出 ， 上 面 代码 查 看 的 是 一 个 简单 的 关联 生成 的 执行 计划 ， 该 执行 计划 是 一 个 层次 关系 ， 先 从 最 右边 开始 查看 。 


第 一 步 ， 数 据 库 先 顺序 扫描 test2 表 ， 扫 描 大 概 有 118 单 位 的 消耗 ， 有 1667 行 数据 ， 平 均 长 度 为 15 字 节 。 其 中 ，1667 行 数据 是 一 个 估计 值 ， 是 一 个 segment 的 数据 量 ， 如 果 数 据 分 布 均匀 ， 大 概 是 总 数 
据 量 除 以 egment 的 个 数 。 由 于 这 个 Greenplum 集 群 有 6 个 Segment 节 点 ， 因 此 可 以 推断 test2 表 大 概 有 1 万 行 数据 。 


第 二 步 ， 扫 摘出 test2 表 ， 并 且 计 算 hash 值 ， 将 其 保存 在 内 存 中 。 

第 三 步 ， 顺 序 扫 描 test1 表 。 

第 四 步 ， 在 扫描 test1 表 的 过 程 中 ， 与 test2 表 进行 hash 后 的 结果 关联 (hash join) ， 关 联 的 条 件 是 两 表 的 id 字段 相同 。 

第 五 步 ， 将 数据 汇总 到 Master 上 。Master 将 数据 结果 进行 汇总 并 展现 。 

6.insert、update 和 delete 

这 3 个 操作 是 数据 库 最 基本 的 操作 ， 基 本 语法 就 不 介绍 了 ， 只 讲 几 点 数据 切片 带 来 的 问题 。 

1) insert: 在 执行 Insert 语句 的 时 候 ， 要 留意 分 布 键 不 要 为 空 ， 否 则 分 布 键 默认 会 变 成 null， 数 据 都 被 保存 在 一 个 节点 上 ， 造 成 数据 分 布 不 均 。 
insert 可 以 批量 操作 ， 语 法 如 下 : 


testDB-4 i 
NSERT O 3 


nsert into test001 values (100,'tom'), (101,'lily'), (102,'jack'); 


2) update: 不 能 批量 对 分 布 键 执 行 update， 因 为 对 分 布 键 执行 update 需 要 将 数据 重 分 布 ， 而 Greenplum 暂 时 不 支持 这 个 功能 。 


testDB-4 Nd test001 
Table "public.test001" 


€——————— 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 
id | integer | 

name | text | 

Indexes: 


"test001 idx" btree (id) 
Distributed by: (id) 
testDB-4 update test001 set id-5 where id-6; 

ERROR: Cannot parallelize an UPDATE statement that updates the distribution columns 


3) delete: 在 Greenplum 3.x 的 版 本 中 ， 如 果 Delete 操 作 涉 及 子 查询 ， 并 且 子 查询 的 结果 还 会 涉及 数据 重 分 布 ， 这 样 的 删除 语句 会 报错 ， 如 下 所 示 (在 Greenplum 4.x 中 支持 该 操作 ) : 


testDB-4 delete from test001 where name in (select name from test002); 

ERROR: Cannot parallelize that DELETE yet 

DETAIL: Passage of data from one segment to another is not yet supported during DELETE operations. 

HINT: The WHERE condition must specify equality between corresponding DISTRIBUTED BY columns of the target table and all joined tables. 


如 果 对 整 张 表 执 行 Delete 会 比较 慢 ， 建 议 使 用 TRUNCATE。 


7.TRUNCATE 


与 在 Oracle 中 一 样 ， 执 行 TRUNCATE 和 直接 删除 表 的 物理 文件 ， 然 后 创建 新 的 数据 文件 。TRUNCATE 操 作 比 Delete 操 作 在 性 能 上 有 非常 大 的 提升 ， 当 前 如 果 有 SQL 正 在 操作 这 张 表 ， 那 么 TRUNCATE 操 
作 会 被 锁 住 ， 直 到 表 上 面 的 所 有 锁 被 释放 。 


testDB=# truncate test001; 
TRUNCATE TABLE 


2.3.4 ”常用 数据 类 型 
Greenplum 的 数据 类 型 基本 跟 PostgreSQL 的 一 样 ， 类 型 十 分 丰富 ， 下 面 介绍 几 种 最 常见 的 数据 类 型 。 对 于 Greenplum 支 持 的 其 他 数据 类 型 ， 读 者 可 以 参考 PostgreSQL 文 档 。 
1. 数 值 类 型 
Greenplum 支 持 的 数值 类 型 数据 如 表 2-2 所 示 。 


表 2-2 Greenplum 支 持 的 数据 类 型 


数值 类 型 


类 型 名 称 i ” xh 江 — 


smallint 2 ^E iG EB] AR 


integer A 字 节 常用 的 整数 2 147 483 648 ~ +2 147 483 647 


bigint z 大 范围 的 整数 -9 223 372 036 854 775 808 ~ 9 223 372 036 854 775 807 
decimal rK 用 户 声 明 精 度 ， 精 确 | 无 限制 

numeric 变 长 用 户 声 明 精 度 ， 精 确 | 无 限制 

real AF 变 精 度 ， 不 精确 6 位 十 进 制 数字 精度 

double precision r^ 变 精 度 ， 不 精确 15 位 十 进 制 数 字 精 度 

serial 4 F 目 增 整数 l ~ 2147 483 647 

bigserial rp 大 范围 的 目 增 整 数 1 ~ 9 223 372 036 854 775 807 


2. 字 符 类 型 
Greenplum 支 持 的 字符 类 型 数据 如 表 2-3 所 示 。 


表 2-3 Greenplum 支 持 的 数据 类 型 一 一 字符 类 型 


类 型 名 称 ju ” xb 
character varying(n). varchar(n) FRK, AKER il 
character(n), char(n) 定 长 ， 不 足 补 空 日 
text 变 长 ， 无 长 度 限 制 


3. 时 间 类 型 
Greenplum 支 持 的 时 间 类 型 数据 如 表 2-4 所 示 。 


表 2-4 Greenplum 支 持 的 数据 类 型 一 一 时 间 类 型 


Jn e eris 空间 | 描 述 最 低 值 itin E 度 
timestamp [ (p) ] [ without time zone ] 日 期 和 时 间 4713 BC 5874897 AD 


"— 日 期 和 时 间 ， 刘 14713 BC 5874897 AD 1 2g f 
timestamp [ (p) ] with time zone 时 区 


interval [ (p) ] 12 字 节 Hs FR] LR] Pf 1 EE 
T arn [OTER E 
FH 只 用 于 表示 一 日 |0:00: 24:00:00 ] ER 
内 时 间 

只 用 于 表示 一 日 100:00:00+1459 |24:00:00-1459| 1f. 
内 时 间 ， 市 时 区 


time [ (p) ] [ without time zone | 


time [ (p) ] with time zone 


2.3.5 AHR 


1. 字 符 串 函数 


Greenplum 中 的 字符 串 函 数 如 表 2-5 所 示 。 


表 2-5  Greenplum'T 43 ^e JF] Až 字符 


"mm 
"ERES ED D "ERES 

string || string 字符 串 连 接 PostgreSQL 

length(string) string 中 字符 的 数目 length('jose') 


position(substring in int 指定 的 子 字 人 符 串 的 位 置 position('om' in 'Thomas') 
string) 

substring(string [from text 抽取 子 字 符 串 substring('Thomas' from 2 
int] [for int]) for 3) 


trim([leading | trailing | text 从 字符 串 string HJ JF 3; / Zi |trim(both 'x' from |Tom 
both] [characters] from 尾 /两 边 删 除 只 包含 characters | 'xTomxx') 
string) 中 字符 (默认 是 一 个 空白 ) 的 
最 长 的 字符 
0 字符 'er(" T 


j 
overlay(string placing text SMT f overlay('Txxxxas' placing | Thomas 
string from int [for int]) 'hom' from 2 for 4) 
replace(string text, text 把 字符 串 string 中 出 现 的 Br replace( 'abcdefabcdef', | abXXefabXXef 
from text, to text) ATTIE from f£ UST El |'cd'; XX) 
tH to 
split part(string text, text HR 据 delimiter 分 隔 string 3& | split part('abc|defghi'. 小. | def 
delimiter text, field int) [2] ^E Ji, H 58 field ^P TF ^E fj 8B |2) 
( 1 为 基 ) 


下 面 是 一 个 字符 串 拼接 的 示例 : 


testDB-4 select 'green'||'plum' as dbname; 
dbname 
greenplum 
(1 row) 


下 面 以 | 为 分 隔 符 ， 将 字符 串 分 割 : 


testDB=# select split part (col,'|',1) 

testDB-# „Split part (col,'|',2) 

testDB-# from (values ('hello|wolrd!'), ('greenplum|database')) 
testDB-# t(col) ; 

Split part | split part 

———— 十 ———————— 

hello | wolrd! 

greenplum | database 


(2 rows) 


其 中 Values 是 Greenplum 特 有 的 语法 ， 在 这 里 可 以 将 其 看 成 一 张 表 ， 表 中 有 两 行 数据 ， 表 名 为 t， 字 段 名 为 col|，Values 的 用 法 如 下 : 


testDB-4 values ('hello|wolrd!'), ('greenplum|database'); 
columni 

hello|wolrd! 

greenplum|database 

(2 rows) 


获取 字符 串 的 第 2 个 字符 之 后 的 3 个 字符 : 


testDB-4 select substr('hello world!',2,3); 
substr 


获取 子 串 在 字符 串 中 的 位 置 : 


testDB=# select position('world' in 'hello world!'); 
position 


2. 时 间 函 数 


本 节 内 容 可 参考 PostgreSQL8.2 文 档 “9.9. 时 间 / 日 期 浮 数 和 操作 符 ”。Greenplum 支 持 的 时 间 函 数 如 表 2-6 所 示 。 


表 2-6  Greenplum'T 43 3$ JE] E 2k 


EET mom 
age(timestamp, timestamp) | interval J "fj [age(timestamp '2001-|43 years 9 mons 
04-10', timestamp | 27 days 
1957-06-13") 
age(timestamp) interval 从 current date 减 | age(timestamp '1957- | 43 years 8 mons 3 


去 参数 后 的 结果 06-13") days 


current time time with time zone 当日 时 间 jl 


current timestamp timestamp with time| 当前 事务 开始 时 的 
zone HERI AER 


( £y ) 
FR 效 返回 类 型 | i yi 2 T 
date part(text. timestamp) double precision 获取 子 域 (等 效 于 |date_part('hour'， 
extract ) timestamp '2001-02- 
16 20:38:40") 
date trunc(text, timestamp) | timestamp 截断 成 指定 的 精度 [date trunc('hour'. | 2001/2/16 20:00 


timestamp '2001-02- 
16 20:38:40") 


extract(field from timestamp) | double precision 获取 子 域 extract(hour from 


timestamp '2001-02- 
16 20:38:40) 


now() timestamp with time 当前 事务 开始 时 的 


zone TORT ES A 


时 间 加 减 : 


testDB-4 select '2011-10-01 10:0:0'::timestamp + interval '10 days 2 hours 10 seconds'; 
?column? 


2011-10-11 12:00:10 


Interval 是 一 种 表示 时 间 间 隔 的 一 种 数据 类 型 。 利 用 interval 这 种 数据 类 型 可 以 实现 时 间 的 加 减 ， 两 个 时 间 的 时 间 差 就 是 一 个 Interval 类 型 。 


获取 当前 时 间 : 


testDB=# select now(), current date, current time , current timestamp; 
now date | timetz | Now 


2012-01-15 16:04:52.15361408 | 2012-01-15 | 16:04:52.15361408 | 2012-01-15 16:04:52.15361408 


(1 row) 


获取 当月 的 第 一 天 : 


aligputf8=# select date trunc('months',now())::date; 
date trunc 


( 
aligputf8-$ select date trunc('months',now())::date; 
date trunc 


获取 当前 时 间距 离 2011-10-10 10: 10: 10 过 了 多 少 秒 : 


testDB-4 SELECT EXTRACT (EPOCH FROM now() - '2011-10-10 10:10:10"); 
date part 


8403301.725044 
(1 row) 


除了 这 些 函 数 以 外 ，Greenplum 还 支持 SQL 的 OVERLAPS 操 作 符 : 


UO 


tartl, endl) OVERLAPS (start2, end2) 
tartl, length1) OVERLAPS (start2, length2) 


[0] 


这 个 表达 式 在 两 个 时 间 域 (用 它们 的 终点 定义 ) 重 去 的 时 候 生成 真 值 。 终 点 可 以 用 一 对 日 期 、 时 间或 时 间 戳 来 声明 ， 或 者 在 后 面 跟 一 个 时 间 间 隔 的 日 期 、 时 间或 时 间 戳 。 


testDB-4 SELECT (DATE '2011-02-16', DATE '2011-12-21') OVERLAPS 
testDB-4 (DATE '2011-10-30', DATE '2012-1-15'); 
overlaps 


testDB-4 SELECT (DATE '2011-02-16', INTERVAL '100 days') OVERLAPS 
testDB-i (DATE '2011-10-30', DATE '2012-10-30'); 


3. 数 值 计算 函数 
Greenplum 中 的 数值 计算 函数 如 表 2-7 所 示 。 


表 2-7 Greenplum 中 的 常用 函数 一 一 数值 计算 函数 


abs(x) (与 x 相同) 绝对 值 abs(—17.4) 17.4 
ceil(dp 或 numeric) (与 输入 相同 ) 不 小 于 参数 的 最 小 的 整数 | ceil(-42.8) —42 


ceiling(dp 或 numeric) (与 输入 相同 ) 不 小 于 参数 的 最 小 整数 | ceiling(-95.3) —95 
(ceil 的 别名 ) 
exp(dp 或 numeric) 日 然 指 数 2.718 281 828 
In(dp 或 numeric) (与 输入 相同 ) 自然 对 数 0.693 147 181 


log(dp 或 numeric) (与 输入 相同 ) 
mod(y, x) (与 参数 类 型 相同 ) 1 

piO 常量 3.141 592 654 
power(a numeric, b numeric) a 的 b XE 729 


— 
o 
(a 
am" 
m7 
e 
e 
e 
wW” 
L2 


log(b numeric, x numeric) 


ER 效 
radians(dp) 
random() 
floor(dp 或 numeric) 
round(v numeric, s int) 
sign(dp 或 numeric) 
sqrt(dp 或 numeric) 
cbrt(dp) 


trunc(v numeric, s int) 


4. EET FERA 


返回 类 型 | m -F 2h ^. 


不 大 于 参数 的 最 大 整数 


[ii] alis a S i 小 效 round(42.4382, 2) 
3 
与 输 RI 1.414 213 562 
: 
截断 为 s 位 小 数 trunc(42.4382. 2) 


该 函数 生成 多 行 数据 ， 从 一 个 数字 (start) 


到 另外 一 个 数字 (end) 按照 一 定 的 间隔 ， 默 认 是 1， 生 成 一 个 结果 集 ， 具 体 的 使 用 方法 如 下 : 


testDB=# select * from generate series(6,10); 


generate series 


(5 rows) 


我 们 可 以 很 方便 地 使 用 这 个 函数 来 创建 一 些 测试 表 的 数据 : 


testDB-4 create table test gen as select generate series(1,10000) as id,'hello'::text as name distributed by (id); 


SELECT 10000 


我 们 还 可 以 用 generate_series 来 做 一 些 数值 计算 ， 比 如， 计算 1~2000 之 间 所 有 的 奇数 之 和 |: 


testDB=# select sum(num) from generate series(1,2000,2) num; 


sum 


1000000 
(1 row) 


(2) SERTERAMEGTTERÉ 


有 时 候 我 们 需要 将 一 个 列 的 字符 串 按照 某 个 


分 割 符 将 其 拼接 起 来 : 


testDB=# select * from test string; 


id str 


world 
greenplum 
database 
system 

(5b rows) 


DP 


要 按照 id 字段 将 字符 串 拼 接 起 来 ， 可 以 像 下 面 这 样 使 用 string_agg 来 实现 。 


testDB-4 select id,string agg(str,'| 


id | string agg 

一 一 一 一 十 eT 
2 | greenplum|database|system 
1 | hello|world 

(2 rows) 


') from test string group by id; 


我 们 还 可 以 先 按照 某 一 个 字段 做 排序 ， 再 做 拼接 : 


testDB-4 select id,string agg(str,'|' order by str) from test string group by id; 


2 | database|greenplum|system 
1 | hello|world 
(2 rows) 


全 注意 这 个 函数 是 Greeplum 4.0 之 后 加 入 的 新 功能 ， 要 在 Greeplum 3x 中 实现 同样 的 功能 ， 需 要 自己 自 定义 一 个 聚合 函数 ， 第 6 章 将 介绍 如 何 编写 自 定义 函数 。 


(3) 字符 串 行 转 列 一 regexp_split to table 


上 面 介绍 进行 字符 串 拼 接 的 函数 ， 那 么 反 过 


来 怎么 把 拼接 好 的 字符 串 重 新 拆 分 ， 变 成 多 个 字段 呢 ? 


我 们 可 以 使 用 regexp_split_to_table 遂 数 来 实现 这 个 功能 。 这 次 对 上 面 例子 的 结果 进行 操作 。 


testDB=# select * from test string2; 


id | str 


1 | hello|world 
2 | database|greenplum|system 
(2 rows) 


testDB-£ select id,regexp split to table(str,E'NX|') str from test string2; 
id str 


world 
database 
greenplum 
system 

(5b rows) 


DDODDOPP 


由 于 | 字符 被 转 义 了 ， 因 此 想 正 确 表达 ， 必 须 对 其 进行 转 义 。 


(4) hash 遂 数 


md5, hashbpchar 
Greenplum 中 内 置 了 很 多 hash 函 数 ， 下 面 以 其 中 两 个 为 例 进 行 介绍 ， 其 他 的 大 同 小 异 ， 只 是 按照 不 同 的 数据 类 型 来 执行 hash 函 数 。 


md5 的 hash 算 法 的 精确 度 是 128 位 ， 返 回 值 是 一 个 字符 串 。 


testDB-4 select md5('helloworld'); 
md5 


£c5e038838a257032085441e7£e70105b0 
(1 row) 


Hashbpchar 的 精确 度 是 32 位 的 ， 返 回 值 是 一 个 integer 类 型 。 


testDB-4 select hashbpchar ('helloworld'); 
hashbpchar 


252807993 
(1 row) 


2.3.6 4XRERZN 


学 习 过 Oracle 的 读者 应 该 知道 ，Oracle 中 的 分 析 函 数 功 能 十 分 强大 ，Greenplum 中 也 内 置 了 这 些 函 数 ， 对 于 数据 仓库 应 用 来 说 ， 人 在 对 大 量 数据 进行 分 析 的 时 候 ， 这 些 函 数 可 以 为 实现 一 些 复杂 逻辑 节省 
很 多 的 时 间 。 


1.3F EIER 


使 用 数据 库 进 行 数据 分 析 的 时 候 经 常用 聚合 函数 来 做 一 些 不 同 维度 的 统计 分 析 ， 但 是 聚合 函数 统计 出 的 是 汇总 后 的 结果 ， 没 有 明细 数据 ， 如 果 既 要 统计 结果 又 要 明细 数据 ， 那 么 用 普通 的 SQL 将 会 很 复 


杂 。 如 果 利 用 开 窗 冰 数 ， 这 一 切 就 会 变 得 很 简单 。 简 言 之 ， 聚 合 国 数 返 回 各 个 分 组 的 结果 ， 开 窗 国 数 则 为 每 一 行 返 回 结果 。 下 面 将 结合 PostgreSQL8.4 英 文 文档 中 的 例子 来 简单 介绍 下 开 窗 函数 的 使 用 。 
原 表 的 数据 为 : 
testDB-4 select * from empsalary order by depname; 
depname empno salary 
develop 9 4500 
develop 11 5200 
develop 7 4200 
develop 10 5200 
develop 8 6000 
personnel 9 3500 
personnel 2 3900 
sales 3 4800 
sales 1 5000 
sales 4 4800 
(10 rows) 


每 个 部 门 的 人 ， 在 部 门 内 工资 的 排名 : 


testDB=# SELECT depname, empno, salary 

testDB-# rank () OVER (PARTITION BY depname ORDER BY salary DESC) 
testDB-1 row number() OVER (PARTITION BY depname ORDER BY salary DESC) 
testDB-4 FROM empsalary; 


depname empno salary rank row number 
personnel 2 3900 
personnel 5 3500 2 2 
develop 8 6000 1 

develop 11 5200 2 2 
develop 10 5200 2 3 
develop 9 4500 4 4 
develop 7 4200 5 5 
sales I 5000 I 1 
sales 3 4800 2 2 
sales 4 4800 2 3 
(10 rows) 


执行 rank 函 数 ， 同 样 工资 的 排名 会 是 一 样 ， 执 行 row_number 函 数 ， 则 同一 个 数值 ， 都 会 有 先后 顺序 的 ， 比 如 develop 部 门 的 empno 为 10、11 的 两 个 员工 的 工资 都 是 5200 元 ， 使 用 rank， 则 排名 都 是 
2， 如 果 使 用 row_number， 则 10 的 排名 是 2，11 的 排名 是 3。 


在 执行 sum、count 和 avg 这 一 类 的 聚集 函数 时 ， 加 不 加 order by 是 不 相同 的 。 不 加 order by 所 有 的 结果 都 是 一 样 的 ， 都 是 根据 partition by 的 字段 将 所 有 的 值 聚 合 ， 加 了 order by 则 是 根据 排序 的 字段 
递增 的 。 例 如 下 面 这 个 SQL: 


testDB=# SELECT * 
testDB-4 ,Sum(salary) OVER () sumi 
testDB-i ,Sum(salary) OVER (ORDER BY salary) sum2 
testDB-i ,Sum(salary) OVER (partition by depname) sum3 
testDB-i ,Sum(salary) OVER (partition by depname order by salary) sum4 
testDB-4 FROM empsalary; 

depname empno salary suml sum2 sum3 sum4 
personnel 5 3500 47100 3500 7400 3500 
personnel 2 3900 47100 7400 7400 7400 
develop 7 4200 47100 1600 25100 4200 
develop 9 4500 47100 6100 25100 8700 
sales 3 4800 47100 25700 14600 9600 
sales 4 4800 47100 25700 14600 9600 
sales 1 5000 47100 30700 14600 4600 
develop 10 5200 47100 41100 25100 9100 
develop 1j 5200 47100 41100 25100 9100 
develop 8 6000 47100 47100 25100 25100 


(10 rows) 


字段 sum1 是 所 有 雇员 工资 总 和 的 大 小 ，sum2 则 是 全 局 根据 工资 排序 后 的 递增 结果 ，sum3 是 每 个 部 门 内 雇员 工资 的 总 和 ，sum4 是 部 门 内 按照 工资 排序 后 的 递增 结果 。 
2.grouping sets 
如 果 需 要 对 几 个 字段 的 组 合 进行 group by， 就 需要 用 到 Grouping Sets 的 功能 了 。 为 了 方便 读者 理解 ， 下 面 介绍 一 些 等 价 的 定义 ， 如 表 2-8 所 示 。 


表 2-8 grouping sets 的 等 价 定义 


group sets 语法 等 价 的 普通 SQL 的 语法 
SELECT C1, C2, SUM(C3) SELECT C1, NULL as C2, SUM(C3) 
FROMT FROMT 
GROUP BY GROUPING SETS ((C1), (C2)) GROUPBYT 
UNION ALL 
SELECT NULL as C1, C2, SUM(C3) 
FROMT 
GROUP BY year 


GROUP BY GROUPING SETS ( (C1, C2, ..., Cn)) GROUP BY C1, C2, ..., Cn 


GROUP BY ROLLUP (C1, C2, ++, Cn-1, Cn) GROUP BY GROUPING SETS ( (C1, C2, :-*, Cn-1, Cn) 
CL CZ. Cn-) 


X81 cm 
(C1) 

Q ) 

GROUP BY CUBE (C1, C2, C3) GROUP BY GROUPING SETS ( (C1, C2, C3) 

(C1, C2) 
(C1, C3) 
(C2, C3) 
(C1) 
(C2) 
(C3) 
OQ) 


假设 我 们 要 统计 大 部 门 的 人 数 ， 也 要 统计 大 部 门 中 每 个 小 组 的 人 数 ， 如 下 : 


testDB-4 select depname,depname2,count (1) 
testDB-i from empsalary2 
testDB-4 group by grouping sets (depname, (depname, depname2) ) 
testDB-4 order by depname2; 
depname depname2 count 
€———————— 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 
develop devil 2 
develop dev2 3 
personne] per] 
personne] per2 1 
sales sal] 2 
sales sal2 1 
develop 5 
sales 3 
personnel 2 
(9 rows) 
23.7 ”分 区 表 


Greenplum 支 持 分 区 表 ， 具 体 的 实现 原理 可 查看 “第 4 章 数 据 字 典 详解 ”。 


在 创建 表 时 ， 关 于 partition 的 语法 如 下 : 


[ PARTITION BY partition type (column) 
[ SUBPARTITION BY partition type (column) ] 
[ SUBPARTITION TEMPLATE ( template spec ) ] 
[http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] 
( partition spec ) 


[ SUBPARTITION BY partition type (column) ] 
[http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/...] 
( partition spec v 
subpartition spec 
[ (hEtp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...)] 


) ] 
and partition element is: 


DEFAULT PARTITION name 


| [PARTITION name] VALUES (list value [,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ) 
| [PARTITION name] i E 

START ([datatype] 'start value') [INCLUSIVE | EXCLUSIVE] 

[ END ([datatype] 'end value') [INCLUSIVE | EXCLUSIVE] ] 


[ EVERY ([datatype] [number | INTERVAL] 'interval value') ] 


END ([datatype] 'end value') [INCLUSIVE | EXCLUSIVE] 
[ EVERY ([datatype] [number | INTERVAL] 'interval value') ] 
[ WITH ( partition storage parameter-value [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ] ) ] 


[ TABLESPACE tablespace ] 


按照 时 间 分 区 ， 创 建 20111230~ 20120104 号 的 分 区 : 


create table public.tesi 


t partition range( 


id numeric 
,name character varying (32) 
rdw end date date 

)Distributed by (id) 

PARTITION BY range (dw end date) 

( 
PARTITION p20111230 START ('2011-12-30' 
PARTITION p20111231 START ('2011-12-3] 
PARTITION p20120101 START ('2012-01-01 
PARTITION p20120102 START ('2012-01-02': 
PARTITION p20120103 START ('2012-01-03': 
PARTITION p20120104 START ('2012-01-04': 


); 


('2011-12-31' 
('2012-01-01' 
('2012-01-02': 
('2012-01-03': 
('2012-01-04' 
('2012-01-05' 


使 用 Every， 创 建 20111201~20111231 的 分 区 : 


create table public.test partition every( 
numeric 
character varying (32) 


id 
,name 


rdw end date 


)Distributed 
PARTITION 


by (id) 


( 


PART 


T 


Js 


ON p201112 STAI 


date 


RT 


BY range (dw end date) 


('2011-12-1'::date) 


END 


('2011-12-31'::date) 


every 


('1 days'::interval) 


创建 list 分 区 : 


create table public.test partition list( 


numeric 


character varying (32) 


member id 
„city 
)Distributed by (member id) 
PARTITION BY list(city) 
( 
parti 
partition hangzhou val 
partition shanghai val 
parti 
DEFAULT PARTIT 


); 


下 面 是 alter table 对 分 区 表 特 有 的 一 些 操作 的 语法 : 


where parti 


tion ac 


ALTER D 


EFAULT PART 


T 


ON 


DROP DEFA 


tion is one of: 


RT ON [IF 


T. 


EX 


STS] 


DROP PART 


[IF EXISTS] 


FOR ( 
TRUNCATE D 


RANK (n 
EFAULT PART 


umber)) 


TION 


E PART 


T 


T 
TRUNCAT 
R 


FOR (val 


D 


Lue) 
EFAULT PART 


} 


TION 


RENAME 


PAI 


RT 


T 


R (val 
FAULT 


PART 


TION name 


RTIT 


ON 
[ ( subpartition spec ) 


FOI 


R 


TO new partii 
ON { partition name | 
Lue) } TO new partition name 


[ 


[name] parti 


E PART 


T 


ON { parti 


R 
[ WI 


T 


(value) 
H 
EFAULT 


tion element 


tion name | 


) 


(value) 


FOR 


ON ( partition name | FOR ( 


tion guangzhou values ('guangzhou'), 
lues ('hangzhou'), 
lues ('shanghai'), 
tion beijing values('beijing'), 
ON other city 


( partition name | 
[CASCADI 


Lu 
cu 


RANK (number) ) 


tion name 


(RANK (number)) | 


( subpartition spec ) ] 


] 
FOR 


BL 


) WITH TA 


E table name 


WITHOUT VAL 


DAT 


ON ] 


PARTITION 


ITHOUT VAL 


W 


TH TABL 


DAT 


EMPLAT 


TION T 


EFA 


ULT PART 


TION 


AT 


| START([da 
END ( [datatype] 
( PART 

PAI 


[ INTO 


(list value) 


T 
T 


RT ON dei 


ON ] 
E (subparti! 


tatype] range value) 
range value) 
ON new partition name, 
fault partition name ) ] 


(RANK (number) ) 


E table name 


tion spec) 


[INCLUS 


VE 


E | 


EXCLUS 


VE 


F 


V 


[INCLUS 


SPL 


T PART 


T 


FOR 
[ INTO 


(value) 
(PART 


) AT 
T 


(value 


) 


ON partition name, PART 


ON ( partition name | FOR (RANK (n 


T 


| EXCLUS 


umber)) | 


ON partition name) ] 


接 下 来 介绍 对 分 区 表 进 行 的 一 些 常用 操作 。 


(1) 新 增 分 区 


testDB-4 alter table public. test parti 
NOTICE: CREATE TABLE will create parti 
ALTER TABLE 


(2) drop/truncate X 


删除 p20120104 分 区 : 


alter table public. test partition every drop partition p20120105 6; 


tion every add partition p20120105 6 START 
tion "test partition 1 1 prt p20120105 6" 


END 


('2012-01-05'::date) ('2012-01-07'::date); 


for table "test partition 1" 


truncate p20120103 X: 


alter table public. test partition every truncate partition p20120105 6; 


(3) 拆 分 分 区 


alter table public. 


at(('2012-01-06'::da 


te)) into (PARTIT 


T 


test partition every split partition p20120105 6 
ON p20120105, PART 


ON p20120106); 


(4) 交换 分 区 


alter table public. test partition every exchange partition p20120102 with table public.test one partition; 


2.3.8 ”外 部 表 


Greenplum 在 数据 加 载 上 有 一 个 明显 的 优势 ， 就 是 支持 数据 并 发 加 载 ，gpfdist 就 是 并 发 加 载 的 工具 ， 在 数据 库 中 对 应 的 就 是 外 部 表 。 


gpfdist 的 实现 架构 图 如 图 2-20 所 示 。 
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图 2-20 ”Greenplum 外 部 表 (gpfdist) 的 实现 架构 图 


外 部 表 ， 顾 名 思 义 就 是 一 张 表 的 数据 是 指向 数据 库 之 外 的 数据 文件 的 。 在 Greenplum 中 ， 我 们 可 以 对 一 个 外 部 表 执 行 正 常 的 DML 操 作 ， 当 读 取 数 据 的 时 候 ， 数 据 库 就 从 数据 文件 中 加 载 数据 。 外 部 表 支 
持 在 segment 上 并 发 地 高 速 从 gpfdist 导 入 数据 ， 由 于 是 直接 从 Segment 上 导入 数据 ， 所 以 效率 非常 的 高 。 


创建 外 部 表 语 法 : 


CREATE [READABLE] EXTERNAL TABLE table name 
( column name data type [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] | LIKE other table ) 
LOCATION ('file://seghost[:port]/path/file' [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]) 
| ('gpfdist://filehost[:port]/file pattern' [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/...]) 
| ('gpghdfs://hdfs host[:port]/path/file') 
FORMAT 'TEXT' B 
[( [HEADER] 
[DELIMITER [AS] 'delimiter' | 'OFF'] 
[NULL [AS] 'null string'] 
[ESCAPE [AS] 'escape' | 'OFF'] 
[NEWLINE [ AS ] 'LF' | 'CR' | 'CRIFE'] 
[FILL MISSING FIELDS] )] 
| "CSV 
[( [HEADER] 
[QUOTE [AS] 'quote'] 
[DELIMITER [AS] 'delimiter'] 
[NULL [AS] 'null string'] 
[FORCE NOT NULL column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]] 
[ESCAPE [AS] 'escape'] 
[NEWLINE [ AS ] 'LF' | 'CR' | 'CRIF'] 
[FILL MISSING FIELDS] )] 
[ ENCODING 'encoding' ] 
[ [LOG ERRORS INTO error table] SEGMENT REJECT LIMIT count 
[ROWS | PERCENT] ] 加 


外 部 表 需 要 指定 gpfdist 的 I|P 和 端口 ， 还 要 有 详细 的 目录 地 址 ， 其 中 文件 名 支持 通配符 匹配 。 可 以 编写 多 个 gpfdist 的 地 址 ， 但 是 不 能 超过 总 的 Segment 数 ， 否 则 会 报错 。 在 创建 外 部 表 的 时 候 可 以 指定 
分 隔 符 、err 表 、 指 定 人 允许 出 错 的 数据 条 数 ， 以 及 源 文件 的 字符 编码 等 信息 。 


外 部 表 还 支持 本 地 文本 文件 的 导入 ， 不 过 效率 较 低 ， 不 建议 使 用 。 外 部 表 还 支持 HDFSs 的 文件 操作 ， 分 将 在 6.3.3 节 介绍 
启动 gpfdist 及 创建 外 部 表 的 实际 步骤 如 下 : 


1) 首先 在 文件 服务 器 (这 里 假设 是 10.20.151.11) 上 局 动 gpfdist 的 服务 ， 指 定 文件 目录 及 端口 。 


nohup $GPHOME/bin/gpfdist -d /home/admin -p 8888 > /tmp/gpfdist.log 2>&1 & 
启动 gpfdist 后 ， 在 log 中 可 以 看 到 : 
Serving HTTP on port 8888, directory /home/admin 


说 明 程 序 已 经 成 功 启 动 了 ， 羡 口 是 8888， 这 个 服务 只 需要 启动 一 次 以 后 就 不 用 启动 了 。nohup 保 证 程序 在 Server 阐 执行 ， 当 前 会 话 关 闭 后 ， 程 序 仍 然 正 常 运行 。 


Qi. nohup UNIX/Linux F 84—4M44-, F NUI SUR J3X5]5 Gi84T, de RB DARRER, WAR. nohupép4 8 WEB, MAEA e E h 
到 守护 进程 的 作用 。 


后 ， 进 程 仍然 继续 运行 ， 起 


2) 准备 好 需要 加 载 的 数据 文件 ， 将 其 放 在 10.20.151.11 机 器 的 /home/admin/ 目 录 或 该 目录 的 子 目 录 下 ， 在 Greenplum 中 创建 对 应 的 外 部 表 : 


create external table public.test001 ext( 

id integer, 

name  varchar (128) 

) 

Location ( 

'gofdist://10.20.151.11:8888/gpextdata/test001.txt' 

) 

Format 'TEXT' (delimiter as E'|' null as '' escape 'OFF') 

Encoding 'GB18030' Log errors into public.test001 err segment reject limit 10 rows; 


3) 外 部 表 查 询 及 数据 加 载 : 


| name 


| lily 


101 


(4 rows) 
tDB-£f 
ERT O 


Time: 34 


tes 
NS 


| david 


4 


B=# select * 


insert into test001 select * 


from public.test001 ext; 


from test001 ext; 


15.514 ms 


4) 如 果 加 载 报错 ， 报 错 的 数据 会 被 插入 到 err 表 中 ， 并 显示 报错 的 详细 信息 : 


testDB-4 select * from public.test001 err; 

-[ RECORD 1 ]------------------------ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

cmdtime 2012-01-11 23:42:35.2428 77-08 

relname test001 ext 

filename | gpfdist://10.20.151.11:8888/gpextdata/test001.txt [/home/admin/gpextdata/test001.txt] 
linenum 5 

bytenum 

errmsg extra data after last expected column 

rawdata sdfdsf|sdfdsfdsf|sfd 

rawbytes 


2.3.9 COPY 命令 


使 用 COPY 命 令 可 以 实现 将 文件 导出 和 导入 


， 只 不 过 要 通过 Master， 效 率 没 有 外 部 表 高 ， 但 是 在 数据 量 比较 小 的 情况 下 ，COPY 命 令 比 外 部 表 要 方便 很 多 。 


使 用 COPY 命 令 的 语法 如 下 : 


Command: 


Syntax: 


COPY 


COPY 
Description: copy data between a file and a table 
COPY table [(column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...])] FROM ('file' | STDIN} 
[ [WITH] 
[OIDS] 
[HEADER] 
[DELIMITER [ AS ] 'delimiter'] 
[NULL [ AS ] 'null string'] 
[ESCAPE [ AS ] 'escape' | 'OFF'] 
[NEWLINE [ AS ] 'LF' | 'CR' | 'CRIFE'] 
[CSV [QUOTE [ AS ] 'quote'] 
[FORCE NOT NULL colum [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...]] 
[FILL MISSING FIELDS] i 
[ [LOG ERRORS INTO error table] [KEEP] 
SEGMENT REJECT LIMIT count [ROWS | PERCENT] ] 
(table [(column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/...])] | (query)) TO ('file' | STDOUT} 
[ [WITH] 
[OIDS] 
[HEADER] 
[DELIMITER [ AS ] 'delimiter'] 
[NULL [ AS ] 'null string'] 
[ESCAPE [ AS ] 'escape' | 'OFF'] 
[CSV [QUOTE [ AS ] 'quote'] 
[FORCE QUOTE column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...]] | 


Greeplum 4.x 中 引入 了 可 写 外 部 表 ， 在 导出 数据 的 时 候 可 以 用 可 写 外 部 表 并 发 导出 ， 性 能 很 好 ， 但 是 在 Greeplum 3.x 版 本 中 ， 导 出 数据 只 能 通过 COPY 命 令 实现 ， 数 据 在 Master 上 汇总 导出 。 


如 果 需 要 将 数据 远程 导出 到 其 他 机 器 上 ， 可 以 使 用 copy to stdout， 远 程 执行 psql 连 接 到 数据 库 上 ， 然 后 通过 管道 将 数据 重 定向 成 文件 。 


2.4 


本 章 主要 介绍 了 Greenplum 的 安装 和 部 署 ， 以 及 一 些 简 单 的 基本 的 数据 库 操 作 及 使 用 注意 点 ， 力 求 使 读者 可 以 快速 了 解 Greenplum 的 特性 ， 迅 速 上 手 ， 


小 结 


特性 以 及 管理 和 优化 。 


后 续 的 章节 会 详细 介绍 Greenplum 的 一 些 高 级 


与 普通 的 PostgreSQL 数 据 库 的 最 大 不 同 就 是 ，Greenplum 是 分 布 式 数 据 库 ， 所 有 的 数据 都 切 分 在 Semgment 上 ， 在 使 用 过 程 中 要 时 刻 注意 这 一 点 。 


Greenplum 的 函数 与 PostgreSsQL 的 函数 大 部 分 是 一 样 的 ， 在 PostgreSQL 的 文档 中 对 函数 有 很 多 的 解释 和 说 明 ， 强 烈 建 议 读者 对 照 PostgreSQL 的 文档 来 学 习 Greenplum， 这 样 必 将 事半功倍 。 


第 3 章 ”Greenplum 实 战 


从 本 章 开始 我 们 结合 实际 需 : 


本 章 将 介绍 两 个 完整 的 例子 : 数据 仓库 拉链 记 历 史 和 网 页 浏览 日 


， 前 述 一 下 日 党 项 目 开 发 中 如 何 结合 Greenplum 的 特性 进行 高 效 的 开发 ， 展 现 出 Greenplum 在 海量 数据 分 析 中 的 优势 。 


志 分 析 。 在 这 两 个 例子 中 ， 会 结合 Greenplum 的 一 些 特性 加 以 描述 ， 之 后 会 介绍 使 用 Greenplum 中 要 注意 的 一 些 特性 ， 以 及 这 些 特 性 对 


性 能 的 影响 。 
3.1 ”历史 拉链 表 


数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 相 对 稳定 的 、 反 映 历史 变化 的 数据 集合 ， 用 于 支持 管理 决策 。 由 于 需要 反映 历史 变化 ， 数 据 仓库 中 的 数据 通常 包含 历史 信息 ， 系 统 记录 了 企业 从 过 去 某 一 时 点 
(如 开始 应 用 数据 仓库 的 时 点 ) 到 目前 的 各 个 阶段 的 信息 ， 通 过 这 些 信息 ， 可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 定量 分 析 和 预测 。 


历史 拉链 表 是 一 种 数据 模型 ， 主 要 是 针对 数据 仓库 设计 中 表 存 储 数据 的 方式 而 定义 的 。 顾 名 思 义 ， 所 谓 历史 拉链 表 ， 就 是 记录 一 个 事物 从 开始 一 直到 当前 状态 的 所 有 变化 的 信息 。 拉 链表 可 以 避免 按 每 
一 天 存储 所 有 记录 造成 的 海量 存储 问题 ， 同 时 也 是 处 理 缓慢 变化 数据 的 一 种 常见 方式 。 


3.1.1. 应 用 场景 描述 


现 假设 有 如 下 场景 : 一 个 企业 拥有 5000 万 会 员 信息 ， 每 天 有 20 万 会 员 资料 变更 ， 我 们 需要 在 Greenplum 中 记录 会 员 表 的 历史 变化 以 备 数据 挖掘 分 析 等 使 用 ， 即 每 天 都 要 保留 一 个 快照 供 查询 ， 反 上 映 历 
史 数 据 的 情况 。 在 此 场景 中 ， 需 要 反映 5000 万 会 员 的 历史 变化 ， 如 果 保 留 快 照 ， 存 储 两 年 就 需要 2x365x 5000W 条 数据 存储 空间 ， 数 据 量 为 365 亿 ， 如 果 存 储 更 长 时 间 ， 则 无 法 估计 需要 的 存储 空间 。 而 用 
拉链 算法 存储 ， 每 日 只 向 历史 表 中 添加 新 增 和 变化 的 数据 量 ， 每 日 不 过 20 万 条 ， 人 存储 4 年 也 只 需要 3 亿 人 存储 空间 。 


接 下 来 我 们 将 概要 讲述 整个 分 析 实 施 过 程 。 
3.1.2 ”原理 及 步骤 


在 拉链 表 中 ， 每 一 条 数据 都 有 一 个 生效 日 期 (dw beg date) 和 失效 日 期 (dw_end_date) 。 假 设 在 一 个 用 户 表 中 ， 在 2011 年 12 月 1 日 新 增 了 两 个 用 户 ， 如 表 3-1 所 示 ， 则 这 两 条 记录 的 生效 时 间 为 当 
天 ， 由 于 到 2011 年 12 月 1 日 为 止 ， 这 两 条 记录 还 没有 被 修改 过 ， 所 以 失效 时 间 为 无 穷 大 ， 这 里 设置 为 数据 库 中 的 最 大 值 (3000-12-31) 。 


表 3-1 2011-12-01 新 增 用户 


用 户 名 电话 号 但 生效 时 间 失效 时 间 


10001 13500000001 2011-12-01 3000-12-31 
10002 13500000002 2011-12-01 3000-12-31 


第 二 天 (2011-12-02) ， 用 户 10001 被 删除 了 ， 用 户 10002 的 电话 号 码 被 修改 成 13600000002。 为 了 保留 历史 状态 ， 用 户 10001 的 失效 时 间 被 修改 为 2011-12-02， 用 户 10002 则 变 成 两 条 记录 ， 如 表 3- 
2 所 示 。 


表 3-2 2011-12-2 用 户 表 


10001 13500000001 2011-12-01 2011-12-02 
10002 13500000002 2011-12-01 2011-12-02 
10002 13600000002 2011-12-02 3000-12-31 


第 三 天 (2011-12-03) ， 又 新 增 了 用 户 10003， 则 用 户 表 数据 如 表 3-3 所 示 。 


表 3-3 2011-12-3 用 户 表 


用 户 名 电话 号 公 生效 时 间 失效 时 间 


10001 13500000001 2011-12-01 2011-12-02 
10002 13500000002 2011-12-01 2011-12-02 
10002 13600000002 2011-12-02 3000-12-31 
10003 13500000003 2011-12-03 3000-12-31 


如 果 要 查询 最 新 的 数据 ， 那 么 只 要 查询 失效 时 间 为 3000-12-31 的 数据 即 可 ， 如 果 要 查询 12 月 1 号 的 历史 数据 ， 则 筛选 生效 时 间 <2011-12-01 并 且 失 效 时 间 >2011-12-01 的 数据 即 可 。 如 果 查 询 的 是 12 月 
2 号 的 数据 ， 那 么 筛选 条 件 则 是 生效 时 间 <2011-12-02 并 且 失 效 时 间 >2011-12-02。 读 者 可 对 表 3-3 的 数据 进行 筛选 ， 以 检验 结果 是 否 正确 。 


在 Greenplum 中 ， 则 可 以 利用 分 区 表 按照 dw_end_date 保 存 时 间 ， 这 样 在 查询 的 时 候 可 以 利用 Greenplum 的 分 区 裁剪 ， 从 而 减少 10 消耗 。 下 面 通过 图 3-1 讲 解 拉 链表 刷新 的 步骤 ， 连 线 代 表 数 据 流向 ， 
线 上 的 编号 就 是 步骤 编号 。 


首先 介绍 每 


个 表 的 用 途 


图 3-1 拉链 表 刷 新 过 程 


: member fatdt0: 表示 membet 的 事实 表 ， 其 中 P30001231 保 存 的 是 最 新 数据 ， 每 个 分 区 保留 的 都 是 历史 已 失效 的 数据 。 


- membet delta: 


: member tmp0: 刷新 过 程 中 的 临时 表 ， 这 个 表 有 两 个 分 区 ， 


: member tmp1 : 


当天 的 数据 库 变 更 数据 ，action 字 段 表 示 该 数据 为 新 增 (I) 、 更 新 (U) 、 删 除 (D) 。 


同样 是 刷新 过 程 中 的 临时 表 ， 主 要 是 在 交换 分 区 的 时 候 使 用 。 


刷新 过 程 简单 来 说 ， 就 是 将 
后 续 数据 刷新 实战 中 会 介绍 具体 的 步骤 ， 


3.1.3” 表 结构 


1. 拉 链表 (member fatdt0) 


前 一 天 的 全 量 数据 (分 区 P30001231) 与 当天 的 增 量 数据 进行 关联 ， 并 对 不 同 的 变更 类 型 (action) 进行 相应 的 处 理 ， 最 终生 成 最 


结构 


下 面 先 从 表 结 构 开 始 介绍 。 


member fatdt0 使 用 member id 作为 分 布 键 ， 使 数据 尽量 打 散 在 每 个 机 器 上 (参考 3.3 节 数据 分 布 ) ， 
T&dw end date 作 为 分 区 字段 。 建 表 语 句 如 下 : 


3.4 节 数据 压缩 ) ， 


通过 


分 别 记 录 历 史 数据 ， 即 当天 失效 数据 ， 另 一 个 分 区 记录 的 是 当前 数据 。 


过 with (appendonly=true，compresslevel=5) 指定 


新 数据 ， 以 及 当天 发 生变 更 的 历史 数据 。 


该 表 为 压缩 表 ， 可 以 减少 IO 操作 (参考 


Create table public.member 
( 


Member id varchar (64) 
; phoneno varchar (20) 
rdw beg date date 
;dw end date date 
, dtype char (1) 
ev status char (1) 
,dw ins date date 


fatdtO 


-- 会 员 ID 
-= 电话 号 码 
-- 生 效 日 期 


-- 失 效 日 期 
-- 类 型 (历史 数据 、 当 前 数据 ) 
-- 数 据 操作 类 型 (T, D, U) 
-- 数 据 仓 库 插入 日 期 


) with (appendonly-true, compresslevel-5) 
distributed by (member id) 


PARTITION BY RANGE (dw | end date) 
( 
PARTITION p20111201 START (date '2011-12-01') INCLUSIVE , 
PARTITION p20111202 START (date '2011-12-02') INCLUSIVE , 
PARTITION p20111203 START (date '2011-12-03') INCLUSIVE , 
PARTITION p20111204 START (date '2011-12-04') INCLUSIVE , 
PARTITION p20111205 START (date '2011-12-05') INCLUSIVE , 
PARTITION p20111206 START (date '2011-12-06') INCLUSIVE , 
PARTITION p20111207 START (date '2011-12-07') INCLUSIVE , 
PARTITION p30001231 START (date '3000-12-31') INCLUSIVE 
END (date '3001-01-01') EXCLUSIVE 
); 
2. 增 量 表 (member delta) 结构 
建 表 语句 如 下 : 
Create table public.member delta 
( 
Member id varchar (64) -- 会 员 ID 
, phoneno varchar (20) -- 电 话 号 码 
,action char (1) -- 类 型 (新 增 , 删 除 , 更 新 ) 
,dw ins date date 一 数据 仓库 插入 日 期 


) with (appendonly-true, compresslevel-5) 
distributed by (member id); 


3. 临 时 表 0 (member tmpO) 结构 


dtype 为 分 区 字段 ，H 表 示 历 史 数 据 ，(C 表 示 当 前 数据 ， 建 表 语句 如 下 : 


Create table public.member tmpO 
( 


Member id varchar (64) -- 会 员 ID 

, Phoneno varchar (20) -- 电 话 号 码 

,dw beg date date -生效 日 期 

,dw end date date -- 失 效 日 期 

, dtype char (1) -- 类 型 (历史 数据 、 当 前 数据 ) 
,dw status char (1) -- 数 据 操作 类 型 (TI, D,U) 

,dw ins date date -- 数 据 仓 库 插入 日 期 


) with (appendonly-true,compresslevel-5) 
distributed by (member id) 
PARTITION BY LIST (dtype) 
( PARTITION PHIS VALUES ( 
PARTITION PCUR VALUES ('C'!), 
DEFAULT PARTITION other ) 


4. 临 时 表 1 (member tmp1) 结构 


表 结 构 与 nember tmp1、member fatdt0 一 模 一 样 ， 建 表 语句 如 下 : 


Create table public.member tmpl 
( 


Member id varchar (64) -- 会 员 ID 

, phoneno varchar (20) -Ei 55 

,dw beg date date -- 生 效 日 期 

,dw end date date -- 失 效 日 期 

, dtype char (1) -- 类 型 (历史 数据 、 当 前 数据 ) 
,dw status char (1) -- 数 据 操作 类 型 (TI, D,U) 

,dw ins date date -- 数 据 仓库 插入 日 期 


) with (appendonly-true, compresslevel-5) 
distributed by (member id); 


3.1.4. Demo 数据 准备 


在 这 里 为 了 清晰 展示 整个 逻辑 ， 仪 以 少量 demo 数 据 为 例 。 
(1) 增 量 表 数 据 
12 月 2 号 增 量 数据 ， 新 增 、 删 除 、 更 新 各 有 一 条 记录 ， 如 表 3-4 所 示 。 


表 3-4 12 月 2 号 增 量 数据 


Member 1d dw ins date 
12 月 3 号 增 量 数 据 ， 新 增 、 删 除 、 更 新 各 有 一 条 记录 ， 如 表 3-5 所 示 。 
表 3-5 12 月 3 号 增 量 数据 
member 1d dw ins date 


(2) 历史 表 初 始 数据 
初始 数据 为 12 月 1 号 ， 失 效 日 期 为 3000 年 12 月 31 号 ， 如 表 3-6 所 示 。 


表 3-6 历史 表 初 始 数 据 


member id dw_ beg date dw ins date 
mem003 3000/12/31 2011-12-02 


3.1.5 ”数据 加 载 


Greenplum 数 据 加 载 主要 包括 标准 SQL 的 insert、copy、 外 部 表 、gpload、web external table 几 种 方式 ， 通 过 这 个 例子 ， 将 这 几 种 方式 一 起 来 向 读者 介绍 一 下 。 


1.insert 


这 种 数据 加 载 方式 效率 最 差 ， 只 适合 加 载 极 少 量 数据 。 


inser 


t into public.member del 


ta val 


inser 


t into public.member del 


ta val 


inser 


ta val 


2.COpy 


t into public.member del 


ues ('mem006', '] 
ues ('mem002', '] 
ues('mem003'!, 


Co CO 


这 里 向 12 月 2 号 会 员 增 量 表 中 插入 数据 : 


100000006','I',date'2011-12-03') 
100000002','D',date'2011-12-03') 
13800000003','U',date'2011-12-03') 


copy 这 种 数据 加 载 方式 源 于 PostgreSQL， 较 SQL 的 insert 方 式 效 率 大 大 提升 ， 但 是 数据 仍然 


数据 以 逗号 分 隔 ， 存 放 在 member_his_init.dat 文 件 中 ， 内 容 如 下 : 


我 们 将 

mem001,13100000001,2011-12-01, 3000- 
mem002, 13100000002, 2011-12-01,3000- 
mem003, 13100000003, 2011-12-01, 3000- 
mem004, 13100000004, 2011-12-01, 3000- 
mem005, 13100000005, 2011-12-01, 3000- 


copy 命 令 如 下 ， 指 定 


testDl 


B=# copy public.member 


COPY 5 


3. 外 部 表 


外 部 表 在 2.3.8 节 中 已 经 简单 介 


$nohup gpi 


EUR, 


drop external table i 


创建 外 部 表 : 


fatdtO | 


2-31,C, 1,2011-12-0 
2-31,C, 1,2011-12-0 
2-31,C, I,2011-12-0 
2-31,C, I,2011-12-0 
2-31,C, I,2011-12-0 


分 隔 符 还 有 数据 文件 。 


， 首 先 ， 启 动 gpfdist 服 务 : 


f exists public.member ext; 


create external table public.member ext 


( 


Member id varchar (64) 
; phoneno varchar (20) 
,action char (1) 

dw ins date date 


) 


最 后 


testDl 


location ('gpfdist://localhost:8888/member delta.dat') 
format 'text' 
(delimiter ',' nullas '' escape 'o 
encoding 'gb18030' 


c£") 


， 执 行 数据 装载 : 


4.gpload 


gpload 是 对 外 部 表 的 一 层 封装 ， 


log errors into member err segment reject limit 2 rows; 


B=# Insert into public.member delta select * 


详细 可 参考 用 户 手册 ， 


一 - /home/gpadmin/data/member | delta.dat 


- BEFORE: "truncate table public.member delta" 


VERSION: 1.0.0.1 
DATABASE: testDB 
USER: gpadmin 
HOST: localhost 
PORT: 5432 
GPLOAD: 
INPUT: 
- SOURCE: 
LOCAL HOSTNAME: 
- mdw 
end 8081 
FI] . 
— COLUMNS: 
- Member id: varchar (64) 
- phoneno: varchar (20) 
- action: char (1) 
- dw ins date: date 
- FORMAT: text 
- DELIMITER: ',' 
- ERROR LIMIT: 2 
- ERROR TABLE: public.member err 
OUTPUT: i 
- TABLE: public.member delta 
- MODE: INSERT 加 
SOL: 
- AFTER: "analyze public.member delta" 
其 次 ， 执 行 数 据 加 载 : 


Sgpload -f member.yml 


fdist -d /home/gpadmin/data/ -p 8888 -1 /home/gpadmin/data/gpfdist.log & 


from public.member ext; 


2012-01-08 14:30:01|INFO|gpload session started 2012-01-08 14:30:01 
2012-01-08 14:30:01|INFO|started gpfdist -p 8081 -P 8082 - 
2012-01-08 14:30:09|INFO|running time: 7.85 seconds 

2012-01-08 14:30:09|INFO|rows Inserted -3 

2012-01-08 14:30:09|INFO|rows Updated = 0 

2012-01-08 14:30:09|INFO|data formatting errors = 0 

2012-01-08 14:30:09|INFO|gpload succeeded 

最 后 ， 验 证 数据 : 


testDB-4 select * from public.member delta; 
member id phoneno | action | dw ins date 
一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 
memO006 13100000006 | I | 2011-12-02 
mem002 13100000002 | D | 2011-12-02 
mem003 13100000003 | U | 2011-12-02 


(3 rows) 


需 通 过 Master 节 点 ， 无 法 实现 并 行 高 效 数据 加 载 。 


1 prt p30001231 from '/home/gpadmin/member his init.dat' with delimiter ','; 


这 里 直接 介绍 使 用 语法 ， 首 先 ， 编 写 gpload 控 制 文件 member.yml， 代 码 如 下 : 


f "/home/gpadmin/data/member delta.dat" -t 30 


各 会 员 历 史 表 加 载 12 月 1 号 开始 的 初始 数据 。 


5. 可 执行 外 部 表 


可 执行 外 部 表 会 在 6.3.4 节 中 介绍 ， 其 中 基于 操作 系统 命令 读 取 数据 文件 的 方式 如 下 ， 用 法 跟 普 通 外 部 表 类 似 ， 不 过 不 用 启动 gpfdist 服 务 ， 下 面 的 外 部 表 只 在 Master 上 执行 : 


drop external web table if exists public.member ext; 
create external web table public.member ext 


( 


Member id varchar (64) 
; phoneno varchar (20) 
,action char (1) 

/dw ins date date 


) 

EXECUTE 'cat /home/gpadmin/data/member delta.dat' ON master 
format 'text' 
(delimiter ',' nullas '' escape 'off') 
encoding 'gb18030' 


r 


清空 nember delta 表 并 插入 数据 : 


testDB=# truncate table public.member delta ; 

TRUNCATE TABLE 

testDB=# Insert into public.member delta select * from public.member ext; 
NSERT 0 3 


5. 


—À 


.6 数据 刷新 


1. 拉 链表 刷新 


step1: 对 事实 表 中 最 新 数据 (分 区 P30001231) 与 member_delta 表 中 的 更 新 、 删 除数 据 进 行 左 外 连接 ， 关联 上 则 说 明 该 数据 已 发 生 过 变更 ， 需 要 将 该 数据 的 失效 时 间 更 新 为 当天 ， 并 插入 到 
member_tmp0 表 中 的 历史 数据 分 区 中 ， 关 联 不 上 则 说 明 没有 发 生 过 变更 ， 需 要 将 该 数据 插入 到 member_tmp0 表 的 当前 数据 分 区 中 。Greenplum 会 根据 dtype 的 数据 自动 选择 对 应 的 分 区 。 


初始 全 量 数据 为 2011-12-01 号 ， 在 12 月 3 号 刷新 12 月 2 号 增 量 数据 ， 代 码 如 下 : 


truncate table public.member tmp0; 
-- 清 理 临 时 表 
NSERT INTO public.member tmpO 


( 
Member id 
; phoneno 
:rdw beg date 
:dw end date 
,dtype . 
,dw status 
/dw ins date 
) 
SELECT | a.Member id 

,;a.phoneno 

ra.dw beg date 

,CASE WHEN b.Member id IS NULL THEN a.dw end date 

ELSE date'2011-12-02' DE 

END AS dw end date 


,CASE WHEN b.Member id IS NULL THEN 'C' 


END AS dtype 
;CASE WHEN b.Member id IS NULL THEN a.dw status 


END AS dw status 
;date'2011-12-03' 


FROM public.member fatdtO0 a 

left join public.member delta b 

ON a.Member id-b.Member id 

AND b.action IN('D','U') 

WHERE ^ a.dw beg date«-cast('2011-12-02' as date)-1 
AND a.dw end date»cast('2011-12-02' as date)-1; 


Step2: 将 member delta 的 新 增 、 更 新 数据 插入 到 member tmp0 表 的 当前 数据 分 区 中 。 


NSERT INTO public.member tmpO 


( 
Member id 
; phoneno 
rdw beg date 
:rdw end date 
; dtype 
,dw status 
/dw ins date 
) 
SELECT Member id 
; phoneno 
,Cast('2011-12-02' as date) 
,Cast('3000-12-31' as date) 
, 1C! 
action 
,Cast('2011-12-03' as date) 
FROM public.member delta 
WHERE action IN('I','U'); 


Step3: member fatdt0 表 中 的 对 应 分 区 (P20121201) 与 member tmp0 表 的 历史 数据 分 区 交换 。 


Truncate table public.member tmpl; 
alter table public.member tmp0 exchange partition for('H') with table public.member tmpl; 
alter table public.member fatdtO0 exchange partition for('2011-12-02') with table public.member tmpl; 


Step4: 将 member fatdt0 表 中 对 应 的 当前 数据 分 区 (p30001231) 与 nember tmp0 表 的 当前 数据 分 区 交换 。 


alter table public.member tmp0 exchange partition for('C') with table public.member tmpl; 
alter table public.member fatdtO0 exchange partition for('3000-12-31') with table public.member tmpl; 


至 此 ， 拉 链表 数据 刷新 完成 ， 数 据 验证 如 图 3-2 所 示 。 


gputt8—-£ select * 1 Lprt p30001231 


men er id | phoneno | dw: beg. ram dw end date | dtype | 


13100000001 
13800000003 
13100000004 
13100000005 
13100000006 


2011-12-01 
2011-12-02 
2011-12-01 
2011-12-01 
2011-12-02 


3000-12-31 
3000-12-31 
3000-12-31 
3000-12-31 
3000-12-41 


2011-12- 03 
2011-12-03 
2011-12-03 
2011-12-03 
2011-12-02 


a) 最 新 数据 分 区 


aligputt8=# select * from public.member TatdtO 1 prt p20111202 order by member id; 
member 1d | phoneno , dw beg date ; dw end date - dtype - dw status | dw ins date 


| 2011- 12-03 
| 2011-12-03 


memüQO 2 | 13100000002 1 2011-12-01 1 2011-12-02 1 H 
memütc 3 | 13100000003 | 2011-12-01 | 2011-12-02 


2 rows) 


同样 ， 更 新 对 应 的 日 期 ， 可 以 刷新 3 号 的 增 量 数据 。 


2. 历 史 数 据 查 询 


基于 拉链 表 ， 我 们 可 以 回溯 到 历史 上 任意 一 天 的 数据 状态 。 


(1) 12 月 1 号 数据 ， 如 图 3-3 所 示 。 


b) 历史 分 区 数据 


E32 ”拉链 表 刷 新 后 最 终 数据 


gput rom pul | er _ uher 
rap end date»dare' 2011-12-01' order by member id; 


member id 1 


ponen 


13100000001 
13100000002 
13100000003 
13100000004 
13100000005 


(2) 12 月 2 号 数据 ， 如 图 3-4 所 示 。 


aligputf$-£$ select * from publTc.menber fatdtO where 
dw end date-date'2011-12-02' 


member 1d H 


panem 


13100000001 


13800000003 
13100000004 
13100000005 


13100000006 | 


dw beg date | 


2011-12-01 
2011-12-01 
2011-12-01 
2011-12-01 
2011-12-01 


2011- 12- 01 
2011-12-02 
2011-12-01 
2011-12-01 
2011-12-92 


dw _ end date 


3000-12-31 
2011-12-02 
2011-12-02 
2011-12-03 
2011-12-03 


图 3-3 12 月 1 号 数据 


order by member id; 


dw _ beg.- EE I 中 一 end date 


3000- 12- il 
3000-12-31 
2011-12-03 
2011-12-03 
3000-12-31 


2011-12-04 
2011-12-03 
2011-12-03 
2011-12-04 
2011-12-04 


dw beg date«-date' 2011-12-02" and 


du ins date 


2011- 12- 04 
2011-12-04 
2011-12-04 
2011-12-04 
2011-12-04 


图 3-4 12 月 2 号 数据 


gput * from nr 1c. member. Tat 
de end dbi scing x 2011-12-03' order by member 1d; 
member. id d phoneno dw beg date | dw_ end_date 


十 
13100000001 
13800000003 
13800000005 
13100000006 
13100000007 


2011-12-01 
2011-12-02 
2011-12-03 
2011-12-02 
2011-12-03 


3000-12- 31 
3000-12-31 
3000-12-31 
3000-12-31 
3000-12-31 


2011-12-04 
2011-12-04 
2011-12-04 
2011-12-04 
2011-12-04 


图 3-5 12 月 3 号 数据 


3.1.7 DERE 


3.1 


下 面 通过 查看 执行 计划 (第 5 章 讲 详细 介绍 执行 计划 ) 来 介绍 Greenplum 的 分 区 表 的 功能 。 


全 表 扫 描 的 执行 计划 如 下 : 


testDB=# explain select * from public.member fatdt0; 
QUERY PLAN 
Gather Motion 6:1  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..108.40 rows-1708 


-> Append  (cost-0.00http://www.hzcourse. com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..108.40 rows-1708 width-36) 
-> Append-only Scan on member fatdtO 1 prt p20111201 member fatdtO0  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
-> Append-only Scan on member fatdt0 1 prt p20111202 member fatdtO0  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
-> Append-only Scan on member fatdtO 1 prt p20111203 member fatdtO0  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 


E Append-only Scan on member fatdtO 1 prt p30001231 member fatdtO0  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 


5) 
(10 rows) 


通过 执行 计划 可 以 看 出 ，Greenplum 扫 描 了 所 有 的 分 区 。 当 加 入 筛选 条 件 dw_end_date='3000-12-31' 时 ， 执 行 计划 如 下 : 


testDB=# explain select * from public.member fatdt0 where dw end date-'3000-12-31'; 
QUERY PLAN 


Gather Motion 6:1  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..134.00 rows-1707 
-> Append  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..134.00 rows-1707 width-35) 
-> Append-only Scan on member fatdtO 1 prt pougut member fatdtO  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 
Filter: dw end date = '3000-12-31'::date 


(4 rows) 


这 时 ,分 区 裁剪 发 生 了 作用 ， 只 扫描 了 P30001231 这 个 分 区 。 


.8 数据 导出 


Greenplum 在 处 理 大 数据 量 数据 导出 时 常用 的 方式 主要 有 并 行 导出 (可 写 外 部 表 ) 和 非 并 行 导出 (COPY) ，copy 命 令 比 较 简单 ， 就 不 细 说 了 。 下 面 我 们 分 别 简单 介绍 下 可 写 外 部 表 数 据 导 出 方式 ， 通 


过 gpfdist 可 写 外 部 表 将 数据 导出 至 文件 服务 器 


1) 创建 可 写 外 部 表 : 


testDB=# CREATE WRITABLE EXTERNAL TABLE member tmpl unload 
testDB-4 ( LIKE member tmpl ) 

testDB-4 LOCATION ('gp fdist://localhost: 8080/member tmpl.dat') 
testDB-4 FORMAT 'TEXT' (DELIMITER ',') i 

testDB-4 DISTRIBUTED BY (member id); 

CREATE EXTERNAL TABLE i 


WRITABLE 关 键 字 表示 该 外 部 表 是 可 写 外 部 表 ; Like 语 句 表示 创建 的 外 部 表 的 表 结 构 与 member_tmp1 表 结构 一 样 ; LOCATION 指 定 gpfdist 的 机 器 名 跟 端口 ， 还 有 保存 的 文件 名 ; FORMAT 为 导出 文件 


格式 定义 。 


2) 执行 数据 导出 : 


testDB=# insert into member tmpl unload select * from member tmpl; 
NSERT 0 5 


跟 普 通 insert 语 名 一样 ， 只 需要 将 数据 插入 外 部 表 即 可 。 


3) 验证 生成 的 文件 : 


$less member tmpl.dat 
mem004,13100000004, 2011-12-01, 3000-12-31,C, I, 2011-12-03 
mem006, 13100000006, 2011-12-02,3000-12-31,C, I, 2011-12-03 
mem001,13100000001, 2011-12-01,3000-12-31,C, I, 2011-12-03 
mem005, 13100000005, 2011-12-01, 3000-12-31,C, 1, 2011-12-03 
2-02,3000-12-31,C,U,2011-12-03 


mem003, 13800000003, 2011-1 
$ 


32 日 志 分 析 


日 志 分 析 是 网 站 分 析 的 基础 ， 通 过 对 网 站 浏览 的 日 志 进行 分 析 ， 可 以 为 网 站 优化 提供 数据 支持 ， 了 解 用 户 群 以 及 用 户 浏览 特性 ， 对 改进 网 站 体验 ， 提 升 流量 有 非常 重要 的 意义 。 


下 面 将 通过 Greenplum 实 现 一 个 简单 的 网 站 浏览 日 志 的 分 析 。 


3.2.1 ”应 用 场景 描述 


: 分 析 全 网 站 每 分 钟 的 PV、UV， 并 导出 到 Excel 中 ， 画 出 折线 图 。 


| 解析 URL， 获 取 URL 中 的 参数 列表 。 


通过 URL 取 得 member id， 然 后 统计 当天 浏览 次 数 的 用 户 分 布 ， 如 浏览 次 数 在 1~5、6~10、11~50、51~100 以 及 100 次 以 上 的 这 五 个 区 间 段 分 别 有 多 少 个 用 户 。 


3.2.2 数据 Demo 


为 了 简单 起 见 ， 笔 者 对 数据 进行 了 一 些 预 处 理 ， 只 保留 了 几 个 字段 ， 建 表 语句 及 字段 描述 如 下 : 


ROP TABLE IF EXISTS log path; 
EATE table log path( 


QU 
A 


log time timestamp (0) -- 浏 览 时 间 


,Cookie id varchar (256) -- 浏 览 的 cookie id 

PUrl varchar (1024) -- 浏 览 页 面 的 url 

ip varchar (64) --Ħ P ip 

,refer url varchar (1024) -来 源 半 url 这 里 只 保留 域名 


)distributed by (cookie id); 


Demo 数 据 如 下 : 

testDB=# select * from log path limit 1; 

-[ RECORD 1 ]------------- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

log time | 2012-07-14 23:44:58 

cookie id | 119.187.6.228.1337696430725.8 

url | /china. alibaba.com/ims/chat card 60.htm?member id-scutshuxue&cssName-default 
ip | 119.178198 :222 

refer url | www2.im.alisoft.com 


3.2[3 日志 分 析 实 战 


1.PV、UV 分 布 


cookie id 可 以 视 为 唯一 的 用 户 标识 ， 故 UV 可 视 为 去 重 后 的 cookie_id 数 。SQL 如 下 : 


SELECT TO CHAR (1og time,'yyyy-mm-dd HH24:mi:00') 
,COUNT (1) pv 

, COUNT (DISTINCT cookie id) uv 

FROM log path S 

ROUP BY 1. 

RDER BY 1; 


On 


这 里 只 是 较 少 的 样 例 数据 ， 结 果 如 下 : 


testDB=# select * from log pv uv result; 


log time pv uv 
€————————Ó——— 后 十 一 一 一 一 一 一 十 一 一 一 一 一 一 
2012-07-14 23:01:00 4158 699 
2012-07-14 23:45:00 552 254 
2012-07-14 23:03:00 1656 712 
2012-07-14 23:34:00 5554 878 
2012-07-14 23:04:00 | 3504 325 
2012-07-14 23:00:00 12 6 
2012-07-14 23:44:00 4498 540 
2012-07-14 23:33:00 4 2 
(8 rows) 


将 数据 导出 成 csv 格 式 ， 在 Excel 中 展现 ，copy 命 令 的 语法 如 下 : 


testDB=# copy log pv uv result to '/tmp/log pv uv.csv' csv; 
COPY 8 


在 Excel 中 打开 并 画图 ， 结 果 如 图 3-6 所 示 。 
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图 3-6 ”在 Excel 中 展示 PV/UV 折 线 图 
2. 解 析 URL 参 数 
解析 URL， 是 指 通过 substring 对 URL 进 行 正则 表达 式 匹 配 ， 将 域名 取出 ， 例 如 对 于 下 面 这 个 URL: 
http:/ /page.china.alibaba.com/others/feedbackfromalitalk.html 
正则 表达 式 \w+: // (QNw.]-) 可 以 将 域名 匹配 出 来 。 
同样 的 ， 可 以 将 参数 后 面 关 键 字 (member id 或 memberld) 的 值 获取 出 来 ， 作 为 字段 member id。 
split_part 国 数 可 以 将 字符 串 按照 某 个 字符 串 分 割 ， 然 后 获取 其 中 一 个 子 串 。 


regexp split to_array 函 数 可 以 将 字符 串 按照 革 个 字符 串 分 割 ， 然 后 转换 为 数组 变量 。 


y 


DROP TABLE IF F 


STS log path tmp1; 


CREATE TABLE log path tmpl AS 
SELECT 


log time 

cookie id 
, substring (url, E'\\wt://([\\w.]+)') AS host 
;Split part (url,'?',1) AS url 


,Substring(url,E'member[ ]?[ilI]d-(NNw*)') AS member id 
,regexp split to array (split part(url,'?',2),'&') AS paras 
;ip 

refer url 


FROM log path 
DISTRIBUTED BY (cookie id); 


数据 Demo 的 样 例 数据 解析 后 结果 如 下 : 


testDB-4 select * from log path tmpl where member id-'scutshuxue' limit 1; 
-[ RECORD 1 ]-------------------------------------------- 
log time 2012-07-14 23:44:58 


cookie id | 119.187.6.228.1337696430725,8 

host china.alibaba.com 

url http://china.alibaba.com/ims/chat card 60.htm 
member id | scutshuxue n 

paras (member id-scutshuxue,cssName-default] 

ip 119.178.198.222 

refer url | www2.im.alisoft.com 


3. 用 户 浏览 次 数 区 间 分 析 


要 计算 浏览 次 数 的 分 布 ， 首 先 按照 cookie_ id 做 聚合 ， 计 算出 每 个 cookie_id 的 浏览 次 数 ， 之 后 再 用 case when 对 数据 进行 分 区 ， 再 聚合 ，SQL 如 下 : 


SELECT CASE WHEN cnt>100 THEN '100-' 
WHEN cnt>50 THEN '51-100' 
WHEN cnt»10 THEN '11-50' 
WHEN cnt»5 THEN '6-10' 
ELSE '«-5' END tag 
; COUNT (1) AS NUMBER 


FROM ( 
SELECT cookie id,COUNT(1) cnt 
FROM log path tmp1 

ROUP BY 1 E 


— 0 


GROUP BY 1; 


结果 如 下 : 


3.8 ”数据 分 布 
由 于 Greenplum 是 分 布 式 的 架构 ， 为 了 充分 体现 分 布 式 架 构 的 优势 ， 我 们 有 必要 了 解数 据 是 如 何 分 散在 各 个 数据 节点 上 的 ， 有 必要 了 解数 据 倾斜 对 数据 加 载 、 数 据 分 析 、 数 据 导 出 的 影响 。 
3.3.1 ”数据 分 散 情况 查看 


我 们 来 简单 做 个 测试 ， 首 先 ， 利 用 generate _ series 和 repeat 国 数 生成 一 些 测试 数据 ， 代 码 如 下 : 


create table test distribute 1 
as 
select a as id 
,round(random()) as flag 
, repeat('a',1024) as value 
from generate series (1,5000000)a; 


500 万 数据 分 散在 6 个 数据 节点 ， 利 用 下 面 这 个 SQL 可 以 查询 数据 的 分 布 情况 (SQL 在 后 面 5.8.4 中 将 会 介绍 ) : 


testDB=# select gp segment id,count(*) 
testDB-# from test distribute 1 
testDB-# group by 1; 

gp segment id | count 


1 | 833396 
4 | 833297 
5 | 833294 
3 | 833309 
2| 833359 
0 | 833345 


(6 rows) 


Qua 上 述 SQL 中 的 group by 1， 其 中 1 代表 select 后 面 的 第 一 个 字段 ， 即 gp_segment_id。 


3.3.2 ”数据 加 载 速度 影响 
接 下 来 将 通过 实验 来 测试 在 分 布 键 不 同 的 情况 下 数据 加 载 的 速度 。 
(1) 数据 倾斜 状态 下 的 数据 加 载 


1) 测试 数据 准备 ， 将 测试 数据 导出 : 


testDB=# copy test distribute 1 to '/home/gpadmin/data/test distribute.dat' with delimiter '|'; 
COPY 5000000 


2) 建立 测试 表 ， 以 flag 字 段 为 分 布 键 : 


testDB-4 create table test distribute 2 as select * from test distribute 1 limit 0 distributed by (flag); 


SELECT 0 


3) 执行 数据 导入 : 


$ time psql -h localhost -d testDB -c "copy test distribute 2 from stdin with delimiter '|'" < /home/gpadmin/data/test distribute.dat 
rea] 14m1.381s E E B 

user 0m24.080s 

Sys 0m26.387s 


4) 由 于 分 布 键 flag 取 值 只 有 0 和 1， 因 此 数据 只 能 分 散 到 两 个 数据 节点 ， 如 下 : 


testDB-4 select gp segment id,count(*) from table distribute 4 group by 1; 
gp segment id | count 
€—€——————— 十 一 一 一 一 一 一 一 一 一 
3 | 2498434 
2 | 2501566 
(2 rows) 
Time: 50751.740 ms 


5) 由 于 数据 分 布 在 2 和 3 节点 ， 对 应 Primary Segment 在 dell3、Mirror 节 点 dell4 上 ， 可 通过 以 下 SQL 查询 gp segment _configuration 获 得 : 


testDB-$ select dbid,content,role,port,hostname from gp segment configuration 
testDB-4 where content in(2,3) order by role; 
dbid | content | role | port hostname 
一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 
11 | 3 | m | 6000] dell4 
TQ: | 2 | m | 60000 dell4 
5 | 3 | | 5000] dell3 
4 | 2|p | 50000 dell3 
(4 rows) 


在 执行 数据 导入 期 间 ，Greenplum Performance Monitor 页 面 可 监控 到 : 仅 有 dell3 和 dell4 两 侣 服务 器 有 磁盘 和 CPU 消耗 ， 如 图 3-7 所 示 。 
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Sort by: A CPU User "n Disk read rate H Net read rate 


“一 -一 M" lg ceu system B Disk write rate B Net write rate 
CPU Idle 


pu Á——— — MÀ 


6000 12000 18000 O 4 8 12 16 20 24 28 32 O 6 12 18 24 30 36 
MBytes MBytes/s MBytes/s 


图 3-7 ”在 数据 分 布 不 均 情 况 下 ， 数 据 导 入 时 服务 器 的 磁盘 和 CPU 消耗 
Qus Greenplum Performance Monitot 的 安装 部 署 ， 将 在 10.2.1 一 一 GPmonitor 介 绍 中 介绍 。 
(2) 数据 分 布 均匀 状态 下 的 数据 加 载 


1) 建立 测试 表 ， 以 id 字 段 为 分 布 键 : 


testDB=# create table test distribute 3 as select * from test distribute 1 limit 0 distributed by (id); 
SELECT 0 


2) 执行 数据 导入 : 


$ time psql -h localhost -d testDB -c "copy test distribute 3 from stdin with delimiter '|'" < /home/gpadmin/data/test distribute.dat 
real 9m40. 607s 
user 0m24.364s 
sys 0m24.491s 


3) 由 于 分 布 键 id 取 值 顺序 分 布 ， 因 此 数据 可 均匀 分 散 至 所 有 数据 节点 ， 如 下 : 


testDB-4 select gp segment id,count(*) from test distribute 3 group by 1; 
gp segment id | count 


1] 833396 
4 | 833297 
5 | 833294 
3 | 833309 
2 | 833359 
0 | 833345 


(6 rows) 
Time: 17999.875 ms 


在 执行 数据 导入 期 间 ，Greenplum Performance Monitor 页 面 可 监控 到 : 3 人 台 服 务 器 的 所 有 节点 都 有 磁盘 和 CPU 消耗 ， 可 见 ， 在 数据 均匀 的 情况 下 ， 可 以 利用 更 多 的 机 器 进行 工作 ， 性 能 也 比较 高 ， 如 
图 3-8 所 示 。 
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图 3-8 ”在 数据 分 布 均匀 情况 下 ， 数 据 导 入 时 服务 器 的 磁盘 和 CPU 消 耗 


3.3.3 ”数据 查询 速度 影响 


(1) 数据 倾斜 状态 下 的 数据 查询 


testDB-4 select gp segment id,count(*),max(length(value)) from test distribute 2 group by 1; 
gp segment id | count | max 
————————— 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 

3 | 2498434 | 1024 

2 | 2501566 | 1024 


(2 rows) 
Time: 79840.885 ms 


由 于 数据 分 布 在 2 和 3 节点 上 ， 即 对 应 dell3 和 相应 的 Mirror 节 点 dell4 上 ， 但 是 数据 查询 只 需要 Primary 节 点 ， 故 只 有 dell3 节 点 有 磁盘 消耗 ， 如 图 3-9 所 示 。 
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图 3-9 ”在 数据 分 布 不 均 情况 下 ， 查 询 数据 时 服务 器 的 磁盘 和 CPU 消耗 
(2) 数据 分 布 均匀 状态 下 的 数据 查询 


testDB-4 select gp segment id,count(*),max(length(value)) from test distribute 3 group by 1; 
gp segment id | count max 


1 | 833396 | 1024 
3 | 833309 | 1024 
5 | 833294 | 1024 
4 | 833297 | 1024 
2 | 833359 | 1024 
0 | 833345 | 1024 


(6 rows) 
Time: 6976.840 ms 


由 于 数据 分 布 在 所 有 节点 上 ， 故 所 有 服务 器 都 有 磁盘 消耗 ， 从 而 大 大 提升 了 数据 查询 的 性 能 。 


3.4 数据 压缩 


3.4.1 ”数据 加 载 速度 影响 
基于 table distribute 4 表 创 建 一 个 普通 的 表 。 从 Greenplum Performance Monitor 页 面 可 看 到 ， 在 dell3 和 dell4 上 有 大 量 磁盘 写 操 作 ， 如 图 3-10 所 示 。 


建 表 语句 如 下 : 


testDB-4 create table test compress 1 as select * from test distribute 1 distributed by (flag); 
SELECT 5000000 
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图 3-10 在 无 压缩 情况 下 ， 数 据 加 载 时 的 服务 器 磁盘 和 CPU 消耗 


基于 table_distribute_4 表 创建 一 个 压缩 表 。 由 于 数据 压缩 比 很 大 ， 从 Greenplum Performance Monitor 页 面 可 看 到 ， 在 dell3 和 dell4 上 基本 没有 磁盘 写 操作 ， 只 有 读 操 作 ， 如 图 3-11 所 示 。 建 表 语 句 
如 下 : 


testDB=# create table test compress 2 with(appendonly-true,compresslevel-5) as select * from test distribute 1 distributed by (flag); 
SELECT 5000000 
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图 3-11 在 压缩 情况 下 ， 数 据 加 载 时 的 服务 器 磁盘 和 CPU 消耗 


3.4.2 ”数据 查询 速度 影响 


(1) 普通 表 的 数据 查询 


testDB=# select gp segment id,count(*),max(length(value)) from test compress 1 group by 1; 
gp segment id | count | max 


3 | 2498434 | 1024 
2 | 2501566 | 1024 


(2 rows) 
Time: 65589.914 ms 


磁盘 消耗 较 大 ， 如 图 3-12 所 示 。 
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图 3-12 ”在 无 压缩 情况 下 ， 查 询 表 时 服务 器 的 磁盘 和 CPU 消耗 


(2) 压缩 表 的 数据 查询 


testDB-4 select gp segment id,count(*),max(length(value)) from test compress 2 group by 1; 
gp segment id | count | max 


3 | 2498434 | 1024 
2 | 2501566 | 1024 


(2 rows) 
Time: 23004.626 ms 


由 于 数据 经 过 压缩 ， 占 用 存储 空间 很 小 ， 从 Greenplum Performance Monitor 页 面 可 看 到 ， 几 乎 没有 磁盘 读 操作 ， 如 图 3-13 所 示 。 


DASHROARD SYSTEM METRICS QUERY MONITOR 


[Aires | pesa coy mesno 


Sort by: B cru user 


| Name g <Pu System 


CPU Idie 


3.5 索引 


国 Used memory 


Free memory 


4000 8000 


MBytes 


12000 


16000 


Last updated: Sun Jan 15 09:50:20 GMT+0800 2012 


国 Disk read rate 国 Net read rate 


n Disk write rate E Net write rate 


0.6 . . ] 0.06 0.12 0.18 0.24 0.3 
MBytes/s MBytes/ E 


图 3-13 ”在 压缩 情况 下 ， 查 询 表 时 服务 器 的 磁盘 和 CPU 消耗 


Greenplum 支 持 B-tree、bitmap、 逊 数 索 引 等 ， 在 这 里 我 们 简单 介绍 一 下 B-tree 索 引 : 


SELECT 5000000 


testDB-4 select id,flag from test index 1 


testDB-f create table test index 1 as select * from test distribute 1; 


where id-100; 


id | flag 


(1 row) 
Time: 2606.125 ms 


接 下 来 我 们 在 flag 字 段 上 创建 btmap 索 引 : 


CREATE INDEX 
Time: 34997.881 ms 


testDB-4 CREATE INDEX test index 1 idx ON test index 1 (id); 


再 次 查看 执行 计划 ， 采 用 了 索引 扫描 ， 如 下 所 示 。 


testDB=# explain select id,flag from tes 


Gather Motion 1:1 (slicel; segments: 1 
-> Index Scan using test index 1 idx 
Index Cond: id = 100 


(3 rows) 


t index 1 where id-100; 


QUERY PLAN 


) (cost-0.00http: //www.hzcourse 


.com/resource/readi 


Book?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..200.84 rows-1l wic 


on test index 1  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2C 


建 好 索引 后 ， 再 次 执行 上 面 的 查询 语句 ， 有 索引 的 情况 下 ， 用 了 23 毫 秒 ， 相 比 未 创建 索引 时 2606 毫 秒 ， 有 了 质 的 提升 。 


另外 ， 表 关联 字段 上 的 索引 和 appen-only 压 缩 表 上 的 索引 都 能 融 来 较 大 的 性 能 提升 ， 虽 然 在 数据 库 应 用 中 ， 索 引 的 应 用 场景 不 多 ， 但 是 读者 仍然 可 以 结合 实际 的 场景 来 运用 索引 。 


3.6 小 结 


本 章 简单 介绍 了 基于 Greenplum 数 据 库 实现 数据 库 数据 模型 刷新 的 过 程 ， 包 括 典型 的 需求 场 


性 ， 比 如 数据 分 布 策略 、 数 据 压缩 、 统 计 信息 、 表 分 区 、 列 存储 、 索 引 等 。 


@ 第 4 章 ”数据 字典 详解 
第 5 章 ”执行 计划 详解 
上 第 6 章 ”Greenplum 高 级 应 用 


上 第 7 章 ”Greenplum 架 构 介绍 


第 4 章 ”数据 字典 详解 


EHZN 
RJJ 


析 、 物 理 模型 定义 、 数 据 加 载 、 数 据 刷新 、 数 据 访问 、 数 据 导 出 等 。 另 外 也 讲解 了 Greenplum 典 型 的 特 


Greenplum 是 基于 PostgreSQL 开 发 的 ， 所 以 其 大 部 分 数据 字典 是 一 样 的 。 这 些 数据 字段 会 根据 其 特性 做 一 些 修 改 ， 并 不 是 完全 一 样 的 ， 如 pg_class、pg_attribute 等 。 


Greenplum 也 有 自己 的 一 些 数据 字典 ， 这 些 数据 字典 一 般 是 以 gp_ 开 头 的。 在 本 章 中 ， 我 们 还 将 介绍 一 些 gp_tookit 的 工具 箱 。Greenplum 是 一 个 分 布 式 数据 库 ， 每 个 节点 都 是 一 个 数据 库 ， 除 了 一 些 
集群 配置 信息 的 数据 字典 外 ， 其 他 所 有 数据 字典 master 和 segment 都 有 ， 而 且 这 些 数据 字典 的 信息 与 naster 的 大 部 分 是 一 致 的 。 


4.1 oid 无 处 不 在 


跟 PostgreSQL 一 样 ， 大 部 分 的 数据 字典 都 是 以 oid 关 联 的 ，oid 是 一 种 特殊 的 数据 类 型 。 在 PG/GP 中 ，oid 都 是 递增 的 ,每 一 个 表 空间 、 表 、 索 引 、 数 据 文件 名 、 遂 数 、 约 束 等 都 对 应 有 一 个 唯一 标识 的 
oid。oid 是 全 局 递增 的 ， 可 以 把 oid 想 象 成 一 个 递增 的 序列 (SEQUENCE) 。 


通过 下 面 的 语句 可 以 找到 | 数据 字典 中 带 隐藏 字段 oid 的 所 有 表 ， 这 些 表 的 oid 增 加 都 是 共享 一 个 序列 的 。 当 然 ， 还 有 其 他 的 表 也 是 共享 这 些 序列 的 ， 比 如 pg_class 的 relfilenode。 


testDB=# select attrelid::regclass,attname 

testDB-# from pg attribute a,pg class b 

testDB-# where a.attrelid-b.oid 

testDB-i and b.relnamespace-11 

testDB-i and atttypid-26 

testDB-i and b.relstorage-'h' 

testDB-i and attname-'oid' 

testDB-i and b.relname not like '$index'; 
attrelid attname 

pg authid oid 

pg user mapping oid 

pg type oid 

pg proc oid 

pg class oid 

pg attrdef oid 

pg constraint oid 

pg operator oid 

pg opclass oid 

pg am oid 

pg language oid 

pg rewrite oid 

pg trigger oid 

pg cast oid 

pg namespace oid 

pg conversion oid 

pg tablespace oid 

pg resqueue oid 

pg resourcetype oid 

pg resqueuecapability oid 

pg partition oid 

pg partition rule oid 

pg filespace oid 

pg foreign data wrapper | oid 

pg foreign server oid 

pg database oid 

(26 rows) 


由 于 数据 库 中 存在 大 量 的 oid，oid 是 一 个 32 位 的 数字 ， 这 个 数字 没有 什么 特殊 的 含义 ， 使 我 们 理解 数据 字典 很 困难 。 下 面 介绍 几 个 数据 类 型 ， 如 表 4-1 所 示 。 将 oid 转 换 成 这 些 数据 类 型 ， 可 以 简化 很 多 
的 操作 。 


表 4-1 将 oid 转 换 成 名 称 的 几 种 类 型 
名 F 5| 用 Ho xh 
—7 TTTYTTET, 
regoperator 带 参 数 类 型 的 操作 符 


最 常用 的 是 regclass， 它 关联 数据 字典 的 oid， 使 用 方法 如 下 : 


regclass 


1259 是 pg_class 对 应 的 oid， 这 个 是 默认 的 ,每 一 个 PostgreSQL 都 是 如 此 。 


testDB=# select oid,relname from pg class where oid-'pg class'::regclass; 


oid | relname 

i 十 一 一 一 一 一 一 一 一 一 一 
1259 | pg class 
(1 row) 


这 样 就 可 以 通过 regclass 寻 找 一 个 表 的 信息 ， 就 不 用 去 关联 pg_class 和 pg_namespace (记录 schema 信 息 ) 了 ， 比 较 方 便 。 


同样 的 ， 其 他 几 个 类 型 也 是 一 样 的 用 法 ， 如 regproc (regprocedure) 是 与 pg_proc (保存 普通 函数 的 命令 ) 关联 的 。regoper (regoperator) 是 与 pg_ operator (操作 符 ) 的 oid 关 联 的 。 


testDB=# select oid::regoper,oid::regoperator,oid,oprname from pg operator limit 1; 


oid oid oid | oprname 

pg catalog.- | -(integer,bigint) I5. | = 

(1 row) 

testDB=# select oid::regoper,oid::regoperator,oid,oprname from pg operator limit 1; 
oid oid oid | oprname 

pg catalog.- | -(integer,bigint) 15 | = 

(1 row) 


下 面 我 们 先 介绍 一 人 Greenplum 保 存 集群 配置 信息 的 数据 字典 。 后 面 的 例子 将 会 给 出 如 何 使 用 regclass， 并 专门 讲解 一 下 oid 是 如 何 增长 的 ， 以 及 什么 时 候 会 用 到 oid。 


4.2 ”数据 库 集群 信息 


Greenplum 的 集群 配置 信息 在 master 上 面 ， 这 些 配置 信息 对 集群 管理 非常 重要 ， 通 过 这 些 配 置信 息 可 以 了 解 整 个 集群 的 状况 ， 可 以 得 知 是 否 有 节点 失败 ， 通 过 修改 这 些 配 置 可 以 实现 集群 的 扩容 等 操 


f. 


4.2.1 


Gp configurationfligp segment configuration 


在 Greenplum 3.x 版 本 中 ， 集 群 的 配置 信息 记录 在 gp_configuration 中 。 表 gp_configuration 中 的 字段 含义 如 表 4-2 所 示 。 


表 4-2 gp_configuration 表 结构 


列 | x : J 字段 说 明 
content smallint 数据 库 节 点 的 标识 ID ， 在 Segment 的 主 、 备 节点 中 ， 它 们 的 content 值 是 相同 
(IJ. Master 市 点 的 content {EJE -1， 数 据 节 点 的 content 值 是 从 0 ~ N ON 是 集群 
中 primary 节点 的 数量 ) 
definedprimary VZ 1 niji fi BEAE X. JJ E13 A 
dbid smallint 唯一 标识 Segment 的 ID ， 这 个 ID ff) — Master 节点 为 1， 然 后 主 节 点 按照 
content 递增 ， 之 后 是 备 节 点 按照 content 递增 ， 最 后 是 Master standy 


isprimary boolean I AMED ENRETA, 一般 备 节点 为 false， 如 果 有 主 节 点 失败 ， 则 
该 备 节 点 就 被 设置 成 true， 变 成 主 节 点 

valid 标识 该 节点 是 否 失效 

hostname 子 节点 所 在 机 需 的 hostname 或 ip 

datadir 子 节点 的 数据 目录 


在 Greenplum 4.x 版 本 中 ， 由 于 引入 了 文件 空间 (filespace) 的 概念 ， 一 个 节点 的 数据 目录 可 以 是 多 个 ， 因 此 将 gp_configuration 拆 分 成 两 个 表 ，gp_segment_configuration (如 表 4-3 所 示 ) 和 
pg_filespace_entry。Greenplum4.x 引 入 了 基于 文件 的 数据 同步 策略 ， 所 以 也 相应 地 增加 了 几 个 数据 字典 来 体现 这 一 个 特性 。 


表 4-3 gp_segment_configuration 表 结构 


列 5 : | 字段 说 明 
dbid smallint 唯一 标识 Segment 的 ID， 这 个 ID 的 一 个 Master 1225329 1, a E A dc H8 
content 递增 ， 之 后 备 节点 按照 content 递增 ,最 后 是 Master Standy 
content smallint 数据 库 节 点 的 标识 ID， 在 Segment 的 主 、 备 节点 中 ， 它 们 的 content 值 是 相同 
的 。 主 节点 的 content 值 是 -1， 数 据 节 点 的 content 值 是 从 0 ~ N (NN 是 集群 中 
primary 节点 的 数量 ) 


Tole 该 节点 现在 的 角色 (primary 或 mirror) 
preferred role 该 节点 被 定义 的 角色 (primary 或 mirror) 


mode char E 备 同步 的 状态 ， 有 三 个 值 ，s (synchronized) 代表 已 同步 , r (resyncing) fX 
表 正 在 重新 间 步 ，c (change logging) 代表 不 同步 


status char 判 靳 证 点 状态 的 值 ， 有 两 个 值 ，u( up) PRZE Zí, d Cdown) 标识 
port 于 斑点 的 交口 

hostname T p AEHL hostname 

address T9 ud TEBL2EH IP 

replication port ET n3 ME 1 ex [8] 27 AS tg O 


san mounts int2vector -个 数组 对 应 gp san configuration 的 oid， 这 个 字段 是 只 在 使 用 共享 存储 的 时 
候 使 用 的 ， 如 SAN 共享 存储 


这 两 张 表 是 在 pg_global 表 空间 下 面 的， 是 全 局 的 ， 同 一 个 集群 中 所 有 数据 库 共用 的 信息 。 


4.2.2 Gp id 


在 Greenplum 3.x 中 ， 每 一 个 子 节点 都 有 gp_id 表 ， 这 个 表 记录 该 节点 在 集群 中 的 配置 信息 。 


表 4-4 gp id 2544 


N F 类 字段 说 明 
gpname name Greenplum 数据 库 的 名 称 


numsegments smallint 集群 中 数据 节点 的 数量 
dbid smallint Z1 um dbid 
content smallint iz 1 5j content ID 


在 Greenplum 4.x 中 ， 这 个 gp_id 表 已 经 废弃 掉 ， 所 有 子 节点 的 gp_id 数 据 都 是 一 模 一 样 的 : 


testDB-4 select * from gp id; 


gpname | numsegments | dbid | content 
一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 
Greenplum | -1 | -1 | -1 
(1 row) 


因为 这 些 信息 都 是 在 启动 子 节 点 的 时 候 通过 pg_ctl 的 启动 参数 传 进 来 的 ， 这 些 信 息 在 Greenplum 4.x 中 都 是 以 数据 库 参 数 的 形式 存在 的 ， 所 以 可 以 建 一 个 视图 ， 获 取 跟 Greenplum 3.x 中 gp_id 表 一 模 一 
样 的 信息 。 


create view v gp id 

as 

select 'Greenplum'::name as gpname 
current setting('gp num contents in cluster') as numsegments 
current setting('gp dbid') 
current setting('gp contentid') as content; 


其 实 9p_id 表 除了 其 本 身 所 要 表达 的 数据 之 外 ， 还 有 一 个 特殊 的 功能 ， 那 就 是 这 个 表 在 每 一 个 数据 节点 中 都 只 有 一 条 数据 ， 这 对 获取 子 节点 的 数据 十 分 有 用 。 
比如 想 获取 集群 中 正在 运行 的 数据 节点 的 hostname 信 息 ， 就 可 以 使 用 如 下 的 方法 。 


Greenplum 中 没有 获取 hostname 的 函数 ， 我 们 可 以 通过 python 来 创建 一 个 国 数 (关于 自 定 义 函 数 如 何 创建 ， 可 参 第 6 章 关 于 Greenplum 高 级 应 用 的 介绍 ) : 


testDB=# CREATE or replace FUNCTION public.hostname () 
testDB-i RETURNS text 
testDB-4 AS $$ 
testDBS$4 import socket 
testDBS$i return socket.gethostname () 
testDBS$4 $$ LANGUAGE plpythonu; 
CREATE FUNCTION 
testDB-4 select hostname () 
hostname 


inc-dw-151-11.hst.bjc.kfc.alidc.net 
(1 row) 


在 使 用 plpythonu 消 数 时 ， 要 先 创建 语言 : 


testDB=# create language plpythonu; 
CREATE LANGUAGE 


要 获取 子 节点 的 信息 ， 还 需要 借助 一 个 国 数 一 一 gp_dist_ random。 对 于 pg_catalog 中 的 数据 字典 表 ， 我 们 都 是 在 主 节 点 上 查询 的 ， 不 会 查询 子 节点 上 的 数据 字典 ， 如 果 想 在 主 节 点 上 查询 子 节点 的 数 
据 字 典 ， 可 以 利用 gp dist random 函 数 。 看 下 面 的 例子 我 们 就 清楚 gp_dist_ random 函 数 是 怎么 使 用 的 。 


testDB-4 select gp segment id,count(1) from gp dist random('pg class') group by 1 order by 1; 
gp segment id | count 


(6 rows) 


这 样 我 们 就 可 以 获取 每 个 数据 字典 的 大 小 。 


同样 的 ， 要 查看 子 节点 的 hostname， 就 必须 从 每 个 子 节点 都 取出 一 条 数据 。 刚 好 ，gp_id 在 每 个 子 节点 上 都 只 有 一 条 数据 ， 所 以 ， 我 们 可 以 使 用 下 面 的 语句 进行 查询 。 


testDB-4 select hostname() from gp dist random('gp id'); 


hostname 

inc-dw-151-12.hst.bjc.kfc.alidc.net 
inc-dw-151-12.hst.bjc.kfc.alidc.net 
inc-dw-151-13.hst.bjc.kfc.alidc.net 
inc-dw-151-11.hst.bjc.kfc.alidc.net 
inc-dw-151-11.hst.bjc.kfc.alidc.net 
inc-dw-151-13.hst.bjc.kfc.alidc.net 
(6 rows) 


f£Greenplum BITE RS—-sefte dd -eSRBRSBZNrR, f&3BfFgp dist random kM 5 kar E8BJ23 T, EbSIgpcheckcatBAZN, EUXKBZK (gpmigrator) 就 调用 这 个 国 数 来 检测 数据 字 
典 。10.6 节 介绍 查看 子 节点 的 SQL 运行 状态 的 工具 时 还 会 用 到 gp_id 和 gp dist random, 


4.2.3 Gp configuration history 


当 数 据 节点 失败 的 时 候 ，GP MASTER 通 过 心跳 检测 机 制 检测 出 Segment 失 败 ， 就 会 触 帮 主 、 备 数据 节点 切换 的 动作 ， 每 一 个 动作 都 会 记录 在 gp_configuration_history 表 中 。 
gp_configuration_history 表 结构 如 表 4-5 所 示 。 


表 4-5 gp configuration history & 25 44] 


列 rA 字段 说 明 


abià 发 现 主 、 备 切换 的 数据 节点 的 dbid 


当 数 据 库 发 生 切 换 的 时 候 ， 我 们 可 以 通过 gp_configuration_history 表 来 了 解数 据 库 切换 的 原因 ， 以 及 发 生 切 换 的 时 间 。 


4.24 pg filespace entry 


在 Greenplum 4.x 中 ， 引 入 了 文件 空间 (filespace) 的 概念 ， 一 个 数据 库 的 数据 节点 可 以 有 多 个 数据 目录 ， 所 以 数据 目录 的 字段 信息 从 gp_configuration 中 抽 离 出 来 ， 保 存在 pg filespace entryz& 
FH, pg filespace_entry 表 结构 如 表 4-6 所 示 。 


表 4-6 pg filespace entry 2544 


ji f" 字段 说 明 

fsefsoid — — 文件 空间 Cfilespace) 的 oid 
fsedbid 万 点 的 dbid 

fselocation 数据 文件 的 目录 


4.2.5 ”集群 配置 信息 表 转 化 


当 在 实际 应 用 中 ，Greenplum 3.x 跟 Greenplum 4.x 的 集群 同时 存在 ,或 者 Greenplum 3.x 升 级 到 Greenplum 4.x 的 时 候 ， 一 些 外 部 程序 如 果 需 要 获取 GP 集群 的 配置 信息 ， 就 必须 对 Greenplum 3.x 跟 
Greenplum 4.x 分 别 进行 识别 处 理 ， 使 其 对 应 不 同 的 数据 字典 。 为 了 维护 代码 的 统一 性 和 升级 方便 ， 不 用 修改 代码 ， 可 以 统一 定义 一 个 视图 ， 将 Greenplum 4.x 的 集群 配置 的 数据 字典 转换 成 Creenplum 
3.x 的 模式 ， 免 得 在 代码 中 判断 很 多 的 逻辑 。 


Greenplum 3.x 的 视图 定义 : 


create view v gp configuration as select * from gp configuration; 


Greenplum 4.x 的 视图 定义 : 


create view v gp configuration as 
select content, 
case when preferred role-'p' then 't'::boolean else 'f'::boolean end as definedprimary, 
a.dbid, 
case when role-'p' then 't'::boolean else 'f'::boolean end as isprimary, 
case when status-'u' then 't'::boolean else 'f'::boolean end as valid, 
hostname, 
port, 


fselocation as datadir 
from gp segment configuration a,pg filespace entry b,pg filespace c 
where a.dbid-b.fsedbid and b.fsefsoid-c.oid and c.fsname-'pg system'; 


4.3 ”常用 数据 字 暴 
下 面 介绍 几 个 PostgreSQL 和 Greenplum 常 用 的 数据 字典 ， 这 几 个 数据 字典 都 可 以 在 PostgreSQL 的 文档 中 找到 相应 的 解释 。 这 里 再 强调 一 遍 ， 这 些 数 据 字 典 在 数据 库 里 面 非常 重要 。 


4.3.1 pg class 


pg_class 可 以 说 是 数据 字典 最 重要 的 一 个 表 了 ， 它 保存 着 所 有 表 、 视 图 、 序 列 、 索 引 的 原 数 据 信息 ， 每 一 个 DDL/DML 操 作 都 必须 跟 这 个 表 发 生 联系 ， 表 4-7 就 是 其 表 结构 。 


表 4-7 pg_class 表 结构 


7—5 "NNI FEN 
mune mae —— | ”| A fH. MESI 


relnamespace pg namespace.oid 包含 这 个 关系 的 名 称 空间 (模式 ) 的 oid 


reltype oid pg type.oid 对 应 这 个 表 的 行 类 型 的 数据 类 型 (索引 为 零 ， 它们 没有 pg - 
type 记录 ) 


relowner pg authid.oid 关系 所 有 者 
relam AE 126388]. ARANEAE (B-tree, hash 55) 
eek ua | [ERRE MRAN 0 


reltablespace | oid pg tablespace.oid 这 个 关系 存储 所 在 的 表 空 间 。 如 m 则 意味 着 使 用 该 数 
据 库 的 默认 表 空 间 。 如 果 关 系 在 磁盘 上 没有 文件 ， 则 这 个 字段 
没有 什么 ZA 意 x 


relpages int4 此 表 在 磁盘 中 以 页 (大 小 为 BLCKSZ) 的 大 小 ， 在 Greenplum 
一 页 默认 为 32KB. 个 字段 只 是 规划 喜人 使 用 的 一 个 近似 值 ， 
VACUUM, ANALYZE 和 几 个 DDL 命令 会 触发 这 个 字段 的 更 
Mr. FEAN CREATE INDEX 

reltuples float4 AufTByAH. REESE RIB)— T fif. VACUUM, 
ANALYZE 和 几 个 DDL 会 触发 这 个 字段 的 更 新 ， 比 如 
CREATE INDEX 


reltoastrelid pg class.oid 与 此 表 关 联 的 TOAST 表 的 oid, WRA MA 0. TOAST 
表 在 D 从 属 表 里 ` 离线 ” ff fifi 大 字段 


(经 ) 
7 B 字段 说 明 
reltoastidxid pg class.oid XI TOAST 表 的 索引 的 oid， 如 果 不 是 TOAST 表 ， 则 为 0 
relaosegidxid |oid pg class.oid 这 个 字段 在 Greenplum 3.4 之 后 的 版 本 中 废弃 了 ， 记 录 此 表 
< 关联 的 appendonly 表 的 oid, WIJE appendonly 表 ， 则 为 0 
relaosegrelid |oid pg class.oid 这 个 字段 在 Greenplum 3.4 之 后 的 版 本 中 上 废弃 了 ， 记 录 
ME appendonly 表 索 3 引 的 oid, "lE appendonly 表 ， 则 为 0 
relhasindex bool 


如 果 它 是 一 个 表 且 至 少 有 (或 者 最 近 有 过 ) 一 个 索引 ， 则 为 
H 它 是 由 CREATE INDEX e m DROP INDEX 不 会 
即将 它 清除 。 如 果 VACUUM i 个 表 没 有 索引 ， 那 么 它 
E 将 清理 relhasindex 
relisshared bool bs di lA | us 整个 集群 中 由 á jn 2d JEF, MWAH, RAH 
relkind char r- -* EE 者 appendonly d , 1 二 索引 , s = 序列 , v= 视图 ， 
= 复合 类 型 , t= TOAST X, o= 内 存 appendonly X ff, u= 
im 列 人 目录 的 临时 表 
Telstorage char 中 的 物理 ff F 储 类 别 。a=appendonly K, h= 堆 表 , v= 虚拟 
T ( 一 一 )，x= 外 部 表 
relnatts int2 大 HP^-EEXXH (除了 系统 字段 以 外 )。 在 pg attribute 
-i 中 tx NE CHX íT. Wb pg attribute.attnum 


relchecks iip | 表 中 的 检查 约束 的 数目 ; jpg constraint 表 
reltriggers iQ | 表 中 的 触发 硕 的 数目 ; 参阅 pg trigger X 


relukeys io | 未 使 用 (不 是 唯一 值 的 数目 ) 

relfkeys iQ | 未 使 用 (不 是 表 中 外 键 的 数目 ) 

eS — Jis — ]- — — — |n 

relhasoids bol | JA AX ARHPBRÉTDA ER — T oid, MAE 

relhaspkey bol | 如 果 这 个 表 有 一 个 (或 者 i 经 有 一 个 ) 主键 ， 则 为 真 
relhasrules tol | 如 果 表 有 规则 ， 就 为 真 ， 参阅 pg rewrite 表 
relhassubclass = 如 果 表 有 (或 者 曾经 有 ) 任何 继承 的 子 表 ， 则 为 真 


relfrozenxid 该 表 中 所 有 在 这 个 之 前 的 E 务 DD 已 经 被 一 个 固定 的 
('frozen') 事务 ID 替换 。 这 用 于 跟 踩 该 表 是 否 需要 为 防止 事务 
ID 香蕉 或 允许 收缩 pg_clog 而 进行 清理 。 如 果 该 关系 不 是 表 ， 
则 为 过 (InvalidTransactionId ) 


mad aa | —— | sm 
reloptions [eu] | ， | GÉBDTHSSGERBENR. HOD keyword-value 格式 的 字符 


建 在 这 个 表 上 的 索引 : 


Indexes: 
"pg class oid index" UNIQUE, btree (oid) 
"pg class relname nsp index" UNIQUE, btree (relname, relnamespace) 


了 解 这 些 基础 数据 字典 的 索引 结构 ， 对 优化 数据 字典 查询 速度 有 很 大 的 帮助 ， 例 如 下 文中 介绍 了 优化 pg_partitions 就 充分 利用 了 索引 ， 大 大 提升 了 查询 速度 。 


权限 控制 对 于 一 个 完善 的 数据 库 是 必 不 可 少 的 ， 对 于 表 、 视 图 来 说 ，pg_class 中 有 一 个 字段 relacl 用 于 保存 了 权限 信息 ， 如 下 : 


testDB=# select relacl from pg class where relname-'cxfa3'; 
relacl 
(gpadmin-arwdxt/gpadmin,role aquery-arwdxt/gpadmin] 
(1 row) 


具体 解释 如 下 : 


=xxxx -- 赋予 PUBLIC 的 权限 
uname-xxxx -- 赋予 一 个 用 户 的 权限 

group gname-xxxx -- 赋予 一 个 组 的 权限 
r -- SELECT ("ix") 


-- UPDATE ("5") 
-- INSERT ("追加 ") 


NCES 


cT 

n 

arwdxt -- ALL PR ES (用 于 表 ) 
* —— 前 面 权限 的 接 权 选项 


HOQOdGr»xutxomvm—xz 
l 
1 
Ca XxX W 


LL 


查 relacl 这 个 字段 有 点 不 方便 ， 不 过 利用 数据 库 中 的 很 多 函数 可 以 方便 一 些 ， 如 下 : 


testDB=# \df *privilege* 


List of functions 


Schema Name Result data type | Argument data types 
一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
pg catalog | has database privilege boolean name, oid, text 
pg catalog | has database privilege boolean name, text, text 
pg catalog | has database privilege boolean oid, oid, text 
pg catalog | has database | privilege boolean oid, text 
pg catalog | has database | privilege boolean oid, text, text 
pg catalog has database | privilege boolean text, text 
pg catalog | has function privilege boolean name, oid, text 
pg catalog | has function privilege boolean name, text, text 

| function privilege boolean oid, oid, text 


pg catalog | has 


示例 : 查询 role aquery 用 户 是 否 具 有 访问 public.cxfa3 表 的 Select 权限。 结果 为 站 表示 有 这 个 权限 ， 结 果 为 后 表示 没有 这 个 权限 。 


testDB=# select has table privilege('role aquery','public.cxfa3','select'); 
has table privilege 


(1 row) 
testDB-4 select has table privilege('role dhw','public.cxfa3','select'); 
has table privilege 


4.3.2 pg attribute 


前 面 介绍 了 记录 表 的 pg_class， 现 在 介绍 记录 字段 内 容 的 pg_attribute， 该 表 的 表 结 构 及 说 明 如 表 4-8 所 示 。 


表 4-8 pg atttibute-& 2544 


32 d FENCE 字段 说 明 
attrelid 此 字段 所 属 的 表 


attstattarget | int4 ANALYZE X 这 个 字段 积累 的 统计 细节 的 级 别 。 和 去 值 表示 不 收 
T 统计 信息 ， 负 数 表 示 使 用 系统 默认 的 统计 对 象 ， 正 数值 的 确切 信息 
insi 类 型 "PP 对 于 量 数据 类 型 ，attstattarget HE Deb 集 的 
省 用 数值 ”的 目标 数目 ， 也 是 要 创建 的 柱状 图 的 目标 数量 
attlen a T. pe 段 类 型 的 pe type-typlen 的 副本 
attnum int2 TOUR 2y 普通 字段 是 从 1 开始 计数 的 。 系 统 字 段 (比如 oid) 有 
EE ET 
attndims int4 n " 该 字段 是 数组 ， 那 么 是 维 数 ， 否 则 是 0。 目 前， 一 个 数组 的 维 数 
Er 
attcacheoff " | | 在 磁盘 上 的 时 候 总 是 -1， 但 是 如 果 加 载 内 存 的 行 描 述 需 ， 记 录 的 是 
行 中 字段 的 侦 移 量 
atttypmod — |int4 记录 创建 新 表 时 支持 的 类 型 特定 的 数据 (比如 一 个 varchar 字段 的 最 
大 长 度 )。 它 传递 给 类 型 相关 的 输入 和 长 度 转换 唤 数 作 第 三 个 参数 。 对 
TT iiec 不 需要 adk inia RIZAI HABIE s EA -1 


attstorage char 这 = a aN type.typstorage 的 € 对 于 可 压缩 的 数据 类 型 
(TOAST)， 这 个 字段 可 以 在 字段 创建 之 后 改变 ， 以 便于 控制 存储 策略 


attalign char 段 类 型 的 pg type.typalign 的 副本 
attnotnull RE 表 一 个 非 空 约束 。 可 以 改变 这 个 字段 以 打开 或 关闭 这 个 约束 


atthasdef bool 这 个 字段 有 一 个 默认 值 ， 此 时 它 对 应 pg attrdef 表 中 实际 定义 此 值 的 
EK 
attisdropped "I1 这 个 字段 已 经 被 删除 了 ,不 再 有 效 。 一 个 已 经 删除 的 字段 物理 上 仍 


然 存 在 表 中 ,但 是 会 被 分 析 禹 忽略， 因此 不 能 青 通 过 "ih 访问 
7 B 字段 说 明 


attislocal bool 这 个 字段 是 局 部 定义 在 关系 中 的 。 注 意 一 个 字段 可 以 同时 是 局 部 定 
attinhcount | 这 个 字段 所 拥有 的 直接 祖先 的 个 数 。 如 果 一 个 字段 的 祖先 个 数 非 堆 


那么 它 就 不 能 被 删除 或 重 命名 
查看 pg_attribute， 我 们 会 发 现 ， 同 一 个 表 在 pg_attribute 中 的 记录 数 会 比 实际 表 的 字段 数 多 ， 这 是 因为 表 中 有 很 多 的 隐藏 字段 ， 这 些 隐藏 字段 如 表 4-9 所 示 。 


表 4-9 ”每 个 表 的 隐藏 字段 描述 


编号 (attnum) 字段 说 明 
-8 gp segment id 标记 数据 是 保存 在 哪个 Segment 上 。 从 主 节 点 上 查询 这 个 字段 ， 字 段 内 
容 - 为 该 Segment 的 content ID 
-7 tableoid 洁 本 行 的 表 的 oid。 这 个 字段 对 那些 从 继承 层次 中 选取 的 查 词 特别 有 


EE 有 它 的 话 ， 我 们 就 很 难说 明 一 行 来 自 哪个 独立 的 表 


E L | 除 事务 内 部 的 命令 标识 符 


E xmax 删除 事务 的 标识 (事务 ID )。 在 一 个 可 见 行 版 本 中 ， 这 个 字段 有 可 能 是 
非 堆 ， 这 通 各 意味 着 删除 事务 还 没有 提交 ， 或 者 是 一 个 删除 的 企图 被 回 滚 
Y 


-4 插入 事务 内 部 的 命令 标识 (从 零 开始 ) 


-3 xmin 插入 该 行 版 本 的 事务 标识 (事务 ID )。 注 意 : 在 这 个 环境 中 ， 一 个 行 版 
本 是 一 行 的 一 个 状态 ; 一 行 的 每 次 更 新 都 为 同一 个 逻辑 行 创建 一 个 新 的 行 
版 本 
-2 oid 行 对 象 标 识 符 〈 对 象 ID )。 这 个 字段 只 有 在 创建 表 的 时 候 使 用 了 WITH 
" [i OIDS 或 配置 参 ^ default with oids 的 值 为 真 时 出 现 。 这 个 字段 的 类 型 是 
oid (和 字段 同名 )。 这 个 字段 对 于 普通 表 来 说 一 般 是 没有 的 


s cud 一 个 行 版 本 在 它 所 处 的 表 内 的 物理 位 置 。 注 意 ， 尽 管 ctid 可 以 用 于 非常 
快速 地 定位 行 版 本 ， 但 每 次 VACUUM FULL 之 后 ， 一 个 行 的 ctid 都 会 被 
de 因此 ctid 不 能 作为 BIO IT WIT MIZE oid, 或 者 最 

是 用 户 定 义 的 序列 号 ， 来 标识 一 个 逻辑 行 


4.3.3 gp distribution policy 


表 的 分 布 键 保 存在 gp_distribution_policy 表 中 ， 其 表 结构 如 表 4-10 所 示 。 


表 4-10 gp_disttibution_policy 表 结构 
TES d 字段 说 明 


出 
localoid —2 —] pg class.oid 表 的 oid 
ocalold smallint[ | 保存 分 布 键 对 应 的 attnum 的 一 个 数组 


4.3.4 pg statistic 和 pg stats 


数据 库 中 表 的 统计 信息 保存 在 pg_statistic 中 ， 表 中 的 记录 是 由 ANALYZE 创 建 的， 并 且 随 后 被 查询 规划 器 使 用 。 注 意 所 有 统计 信息 天 生 都 是 近似 的 数值 。 
这 里 提 到 的 表 上 面 有 一 个 视图 pg_stats， 可 以 方便 我 们 查看 pg_statistic 的 内 容 。 这 个 视图 的 数据 比 pg_statistic 好 理解 ， 其 结构 如 表 4-11 所 示 。 


表 4-11 pg _stats 视 图 结构 


3| 用 字段 说 明 


schemaname pg namespace.nspname 包含 此 表 的 模式 名 称 
null frac real | 记录 Tm 字段 B 空 的 百分比 
avg width meer 0| 0]. ide LAE miae rS B 


n distinct real 字段 里 唯一 的 非 NULL 数据 值 的 数目 。 该 
字段 的 值 为 一 个 大 于 零 的 ; LI. v. ACRI 
的 实际 数目 。 该 字段 值 为 一 个 小 于 零 的 数值 
表示 表 中 行 数 的 分 数 的 负数 (比如 ， 一 个 字段 
的 数值 平均 出 现 概率 为 /2， 那 么 可 以 表示 为 
stadistinct = 0.5 ) 。 该 字段 值 为 零 值 表示 独立 数 
值 的 数目 未 知 


most common vals | anyarray 一 个 字段 中 最 第 用 数值 的 列表 。 如 果 看 上 
没有 数值 比 其 他 数值 更 常见 ， 则 为 NULL 


most common freqs |real[] 一 个 最 篆 用 数值 的 频率 列表 ， 也 就 是 说 ， 每 
个 出 数 除 以 行 数 。 如 果 most common 
vals 是 NULL, ， 则 这 个 字段 为 NULL 


histogram bounds anyarray 一 个 数值 的 列表 ， 它 把 字段 的 数值 分 成 几 组 
大 致 相同 的 热门 组 。 如 果 字 段 数 据 类 型 没有 < 
果 作 和 从 或 者 most_ common vals 列表 代表 了 整 
个 分 布 性 ， 则 这 个 字段 为 NULL 


ZA 


统计 与 字段 值 的 物理 行 序 和 逻辑 行 序 有 关 
它 的 dns -1 到 +1。 在 数值 接近 -1 或 者 +1 
的 时 候 ， 在 字段 上 的 索引 扫描 将 被 认为 比 它 接 
近 堆 的 时 候 开 销 更 少 ， 因 为 减少 了 对 磁盘 的 随 
机 访问 。 如 果 字 段 数 据 类 型 没有 < 操作 符 ， 那 

么 这 个 字段 为 NULL 


correlation 


44 分 区 表 信 息 
Greenplum 支 持 对 表 进行 分 区。 本 节 将 讲述 在 Greenplum 中 如 何 实现 分 区 表 ， 以 及 与 分 区 表 相 关 的 数据 字 


4.4.1 ”如 何 实现 分 区 表 


分 区 的 意思 是 把 逻辑 上 的 一 个 大 表 分 割 成 物理 上 的 几 块 。Greenplum 中 分 区 表 的 实现 基本 上 是 与 PostgreSQL 中 实现 的 原理 一 样 ， 都 是 通过 表 继 承 、 规 则 、 约 束 来 实现 的 。PostgreSQL 的 分 区 表 实 现 可 
以 查看 PostgreSQL8.2.3 中 文档 的 5.9 节 。 


下 面 是 PostgreSQL 中 分 区 表 的 建立 步骤 

1) 创建 “ 主 表 ”， 所 有 分 区 都 从 它 继承 。 

这 个 表 中 没有 数据 ， 不 要 在 这 个 表 上 定义 任何 检查 约束 ， 除 非 希望 约束 同样 也 适用 于 所 有 分 区 。 同 样 ， 在 主 表 上 定义 任何 索引 或 唯一 约束 也 没有 意义 。 
2) 创建 几 个 “ 子 表 ”， 每 个 都 从 主 表 上 继承 。 通 常 ， 这 些 表 不 会 增加 任何 字段 。 

我 们 将 把 子 表 称 为 分 区 ， 尽 管 它们 就 是 普通 的 PostgreSQL 表 。 

3) 为 分 区 表 增 加 约束 ， 定 义 每 个 分 区 允许 的 键 值 。 

典型 的 例子 是 : 


CHECK ( x= 1 ) 
CHECK ( county IN ( 'Oxfordshire', 'Buckinghamshire', 'Warwickshire' )) 
CHECK ( outletID >= 100 AND outletID < 200 ) 


确保 这 些 约束 在 不 同 的 分 区 中 不 会 有 重病 的 键 值 。 一 个 常见 的 错误 是 设置 下 面 这 样 的 范围 : 


CHECK ( outlet 
CHECK ( outlet 


BETWEEN 100 AND 200 ) 
BETWEEN 200 AND 300 ) 


Og 


这 样 做 是 错误 的 ， 因 为 它 没 说 清楚 键 值 200 属 于 哪个 学 围 ， 应 该 明确 指定 200 所 属 的 区 间 。 


意 在 范围 和 列表 分 区 的 语法 方面 没有 什么 区 别 ， 这 些 术 语 只 是 用 于 描述 的 。 


X 


4) 对 于 每 个 分 区 ， 在 关键 字 字段 上 创建 一 个 索引 ， 以 及 其 他 想 创 建 的 索引 。 关 键 字 字 段 索引 并 非 必需 的 ， 但 是 在 大 多 数 情况 下 它 是 很 有 帮助 的 。 如 果 和 希望 关键 字 值 是 唯一 的 ， 那 么 应 该 总 是 为 每 个 分 区 
创建 一 个 唯一 或 主键 约束 。 


5) 另外 ， 定 义 一 个 规则 或 触发 器 ， 把 对 主 表 的 修改 重 定向 到 合适 的 分 区 表 。 


对 于 Greenplum 来 说， 分 区 表 的 实现 原理 与 上 面 介 绍 的 一 样 ， 只 不 过 Greenplum 对 分 区 表 进 行 了 一 个 更 好 的 封装 ， 使 用 户 使 用 起 来 更 加 方便 ， 可 以 通过 create table 直 接 建立 分 区 表 ， 可 以 使 用 alter 
table 等 对 分 区 表 进 行 操作 。 


跟 PostgreSQL 一 样 ， 分 区 表 中 的 子 表 也 是 通过 对 父 表 的 继承 得 来 的 ， 这 些 继承 关系 是 放 在 pg_inherts 这 个 数据 字典 中 的 。 
44.2 pg partition 


一 个 表 是 否 是 分 区 表 保 存在 pg_partition 中 ， 如 果 一 个 表 是 分 区 表 (不 包括 子 分 区 ) ， 则 对 应 有 一 条 记录 在 这 个 数据 字典 中 。pg_partition 表 结构 如 表 4-12 所 示 。 
表 4-12 ”pg_partition 表 结构 
字段 名 
oid 唯一 标识 分 区 表 的 oid 
parrelid oid 表 对 应 在 pg class 中 的 oid 
parkind e 分 区 类 型 R-Range 模式 ，L=List 模式 


parlevel smallint TT WER, 表示 分 区 表 的 父 表 ，1 表示 第 一 层 分 区 ，2 表 
ht — E AAF 
R35 EX 


paristemplate wm | 该 分 区 是 否 为 子 分 区 模板 或 者 是 确定 层级 的 分 区 
parnatts A S 5 

paratts inpvecor | 0 分 区 键 中 对 应 pg attribute 中 的 attnum 的 列表 
parclass IR pg opclass 关联 ， 和 定义 分 区 键 的 操作 方法 


该 表 有 3 个 索引 : 


字段 说 明 


Indexes: 
"Po partition oid index" UNIQUE, btree (oid) 
"pg partition | parrelid . index" btree (parrelid) 
"pg partition parrelid parlevel istemplate index" btree (parrelid, parlevel, paristemplate) 


如 果 想 查询 一 个 表 是 否 是 分 区 表 ， 只 要 将 pg_partition 与 pg_class 关 联 ， 然 后 执行 count 即 可 ， 如 果 这 个 表 中 有 数据 ， 则 为 分 区 表 ， 否 则 不 是 分 区 表 。 


testDB-4 select count(*) from pg partition where parrelid-'public.cxfa3'::regclass; 
count 


44.3 pg partition rule 


分 区 表 的 分 区 规则 保存 在 pg_partition_rule 中 。 在 这 个 表 中 ， 我 们 可 以 找到 一 个 分 区 表 对 应 的 子 表 有 哪些 及 分 区 规则 等 信息 ， 如 表 4-13 所 示 。 


表 4-13 pg_pattition_tule 表 结构 


Y E 类 型 5| 用 子 段 说 明 
oid -| 唯一 标识 的 oid 
paroid Lo pesi — 与 pg partition 关联 ， 对 应 其 oid 
parchildrelid 分 区 表 子 表 对 应 pg_class 的 oid 
parparentrule 父 表 对 应 的 分 区 的 paroid 


字段 名 A 


- 


4.44 pg_partitions 视 图 及 其 优化 


—XX 
NS 
M 
* 
— 


字段 说 明 
子 分 区 名 
该 分 区 是 否 为 默认 分 区 
对 于 range 分 区 ， 对 应 的 分 区 序 与 
对 于 range 分 区 ， 该 分 区 是 否 包 括 起 始 值 
对 于 range 分 区 ， 该 分 区 是 和 否 包 括 结束 值 
«n (H 
结束 值 
对 于 range 分 区 ， 每 一 个 分 区 的 间 隅 值 
对 于 list 分 区 ， 该 分 区 对 应 的 数值 
描述 特定 分 区 的 存储 特性 


在 Greenplum 中 ， 定 义 了 一 个 pg_partitions 的 视图 ， 方 便 对 分 区 表 进 行 查 看 ， 这 个 视图 的 定义 非常 复杂 ， 考 虑 了 多 重 分 区 的 情况 ， 对 很 多 数据 字典 做 了 连接 和 内 连接 。 因 此 ， 当 数据 字典 很 大 的 时 候 ， 


查询 这 个 视图 的 效率 极 差 ， 不 能 够 很 好 地 利用 索引 ， 查 询 采用 的 是 全 表 扫 摘 。 下 面 定 义 这 个 函数 来 代替 pg_partitions 视 图 ， 充 分 利用 索引 ， 碍 询 是 通过 regclass 减 少 表 的 关联 ， 大 大 提高 查询 的 效率 


create view public.v pg partitions 


as 
SELECT pp.parrelid tableoid,pril.parchildrelid,prl.parname as partitionname, 
CASE 
WHEN pp.parkind = 'h'::"char" THEN 'hash'::text 
WHEN pp.parkind = 'r'::"char" THEN 'range'::text 
WHEN pp.parkind - 'l'::"char" THEN 'list'::text 
ELSE NULL::text 
END AS partitiontype, 


case when pg . get | expr(prl.parrangeend, prl.parchildrelid) = '' then pg get expr(prl.parlistvalues, prl.parchildrelid) else pg get expr(prl.parrangeend, prl.parchildre 


pg get : parti tion rule def(prl.oid, true) AS partitionboundary, 
pri.parruleord AS partitionposition 

FROM pg partition pp, pg partition rule prl 

WHERE pp.paristemplate = false AND prl.paroid = pp.oid ; 


在 查询 时 通过 ::regclass 来 查询 表 信息 ， 从 而 避免 关联 pg_class。 


SELECT * from public.v pg partitions 
where tableoid- 'schemaname.tablename'::regclass 
order by partitionposition; 


4.5” 自 定义 类 型 以 及 类 型 转换 


在 Greenplum 中 ， 我 们 经 常 使 用 cast 函 数 或 ::type 进 行 类 型 转换 ， 究 竟 哪 两 种 类 型 之 间 是 可 以 转换 的 ， 


4-14 所 示 。 


哪 两 种 类 型 之 间 不 能 转换 ， 转 换 的 规则 是 什么 ， 这 些 都 在 pg_cast 中 定义 了 。pg _cast 表 结构 如 表 


表 4-14 pg_cast 表 结构 


y B 


字段 说 明 


castsource EF EM pg type.oid 源 数 据 类 型 的 oid 
casttarget EE 一- pg type.oid 目标 数据 类 型 的 oid 


castfunc pg proc.oid HFI 


行 转换 ) 


castcontext char 标识 这 个 转 
转换 (使 
icy. E 
" 包括 其 他 情况 


要 想 知 道 text 类 型 到 date 类 型 的 转换 是 用 了 哪个 函数 ， 可 以 这 么 查 : 


T 这 个 转换 的 函数 的 oid。 如 果 该 数据 类 型 是 二 进 制 兼 


容 的 ， 那 么 这 个 字段 为 零 (也 就 是 说 ， 不 需要 运行 时 的 操作 来 执 


转换 可 以 在 什么 环境 中 调用 。e 表示 只 能 进行 明确 的 
H CAST 或 :: 语法)。a 表示 在 赋值 给 目标 字段 的 时 候 
出 可 以 明确 调用 .i 示 在 表达 式 中 隐 含 调用 ， 当 然 


testDB-4 select castfunc::regprocedure from pg cast where castsource-'text' ::regtype and 
castfunc 


(1 row) 
testDB-4 select '20110302'::date; 
date 


2011-03-02 


casttarget-'date'::regtype; 


(1 row) 
testDB-4 select date('20110302'); 
date 
2011-03-02 
(1 row) 


可 以 看 出 ，cast ('20110302'as date) 和 '20110302'::date 其 实 都 调用 了 date ('20110302') 国 数 进行 类 型 转换 。 
是 否 可 以 自 定 义 类 型 转换 呢 ” 答 案 是 肯定 的 。 


比如 ，Grenplum 默 认 的 类 型 转换 中 ， 是 没有 regclass 类 型 到 text 类 型 的 转换 的 : 


testDB-4 select 1259::regclass::text; 
ERROR: cannot cast type regclass to text 
LINE 1: select 1259::regclass::text; 


先 创建 一 个 类 型 转换 函数 : 


CREATE or replace FUNCTION regclass2text(a regclass) 
RETURNS text 


AS $$ 
return a; 
$$ LANGUAGE plpythonu; 


然后 定义 一 个 cast 类 型 转换 规则 : 


testDB-4 create cast(regclass as text) with function regclass2text(a regclass); 
CREATE CAST 


这 样 就 定义 好 了 一 个 类 型 转换 ， 效 果 如 下 : 


testDB-4 select 1259::regclass::text; 
text 


testDB-4 select cast(1259::regclass as text); 
text 


46 主 、 备 节点 同步 的 相关 数据 字典 


在 Greenplum 4.x 版 本 之 后 ， 数 据 库 主 、 备 节点 之 间 的 同步 通过 基于 数据 文件 的 物理 备份 来 实现 ， 这 与 Greenplum 3.x 的 逻辑 备份 有 很 大 的 区 别 。 
在 Greenplum 4.x 中 ,分别 由 表 4-15 中 的 5 张 数 据 字典 表 来 保存 基于 数据 文件 的 备份 信息 。 这 些 数据 字典 都 是 用 于 在 主 节点 与 备 节点 间 基 于 文件 备份 的 同步 信息 


表 4-15 主 、 备 节点 同步 的 相关 数据 字典 表 


R “名 LEE: 


gp persistent database node 数据 库 的 同步 信息 

gp persistent filespace node 文件 空间 的 同步 信息 

gp persistent relation node 文件 的 同步 信息 

gp persistent tablespace node 表 空 间 的 同步 信息 

ep relation node 表 、 视 图 、 索 引 等 的 同步 信息 


在 这 几 张 表 中 ， 数 据 量 最 大 、 最 重要 的 表 应 该 是 gp_persistent _relation_node 和 gp_relation_node。 这 些 数据 字典 在 每 一 个 节点 中 都 有 ， 如 果 主 节点 和 第 节 点 处 于 完全 同步 的 状态 ， 则 主 节点 和 备 节点 
对 应 的 这 几 张 数据 字典 表 的 内 容 应 该 是 一 模 一 样 的 。 


4.7 ”数据 字典 应 用 示例 
前 面 介绍 了 很 多 数据 字典 的 一 些 基础 知识 ， 下 面 我 们 通过 几 个 示例 来 演示 一 些 好 用 的 函数 ， 它 们 通过 数据 字典 来 获取 我 们 需要 的 信息 。 
4.7.1 获取 表 的 字段 信息 


表 名 放 在 pg_class 中 ，schema 名 放 在 pg_namespace 中 ， 字 段 信息 放 在 pg_attribute 中 。 一 般 关 联 这 3 张 表 : 


SELECT a.attname,pg catalog.format type(a.atttypid, a.atttypmod) AS data type 
FROM pg catalog.pg attribute a, 
( 


SELECT c.oid 
FROM pg catalog.pg class c 

LEFT JOIN pg catalog.pg namespace n 
ON n.oid = c.relnamespace 


WHERE c.relname = 'pg class' 
AND n.nspname = 'pg catalog' 
)b 
WHERE a.attrelid = b.oid 
AND | a.attnum > 0 
AND NOT a.attisdropped ORDER BY a.attnum; 


使 用 regclass 就 会 简化 很 多 : 


SELECT a.attname,pg catalog.format type(a.atttypid, a.atttypmod) AS data type 
FROM pg catalog.pg attribute a E 
WHERE a.attrelid ='pg catalog.pg class'::regclass 

AND a.attnum > 0 — B 

AND NOT a.attisdropped ORDER BY a.attnum; 


其 实 regclass 就 是 一 个 类 型 ，oid 或 text 到 regclass 有 一 个 类 型 转换 ， 与 多 表 关 联 不 一 样 。 在 多 数据 字典 表 关 联 的 情况 下 ， 如 果 表 不 存在 ， 会 返回 空 记录 ， 不 会 报错 ， 如 果 采 用 了 regclass， 则 会 报错 ， 所 
以 在 不 确定 表 是 否 存在 的 情况 下 ， 慎 用 regclass。 


4.7.2 ”获取 表 的 分 布 键 


gp_distribution_policy 是 记录 分 布 键 信息 的 数据 字典 ，|localoid 与 pg_class 的 oid 关 联 。attrnums 是 一 个 数组 ， 记 录 字 段 的 attnum， 与 pg_attribute 中 的 attnum 关 联 。 


testDB-4 create table cxfa2 ( a int ,b int ,c int ,d int ) distributed by (c,a); 
testDB-4 select * from gp distribution policy where localoid-'cxfa2'::regclass; 
localoid | attrnums 

————————" 十 一 一 一 一 一 一 一 一 一 一 

334868 | {3,1} 

(1 row) 


这 样 就 可 以 关联 pg_attribute 来 获取 分 布 键 了 : 


select a.attrnums[i.i],b.attname,a.localoid::regclass 
from gp distribution policy a, 
(select generate series(1,10))i(i), 
pg attribute b 
where a.attrnums[i.i] is not null 
and a.localoid-b.attrelid 
and a.attrnums[i.i]-b.attnum 
and a.localoid-'public.cxfa2'::regclass 
order by i.i; 


结果 如 下 : 


attrnums | attname | localoid 


4.7.3 ”获取 一 个 视图 的 定义 


在 数据 库 中 ， 有 一 个 函数 (pg_get viewdef) ， 可 以 直接 获取 视图 的 定义 ， 函 数 的 使 用 方法 如 下 : 


testDB=# \df pg get viewdef 
List of functions 


Schema | Name | Result data type | Argument data types 
一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
pg catalog | pg get viewdef | text | oid 
pg catalog | pg get viewdef | text | oid, boolean 
pg catalog | pg get viewdef | text | text 
pg catalog | pg get viewdef | text | text, boolean 


使 用 这 个 系统 函数 可 以 获取 视图 的 定义 ， 可 以 传 入 表 的 oid 或 表 名 ， 第 二 个 参数 表示 是 否 格式 化 输出 ， 默 认 不 格式 化 输出 。 


testDB-4 create table cxfa( a int) distributed by (a); 


testDB=# create view v cxfa as select * from cxfa; 
CREATE VIEW 
testDB-4 select pg get viewdef('v cxfa',true); 


pg get viewdef 


其 实 这 个 函数 是 获取 数据 字典 pg_rewrite (存储 为 表 和 视图 定义 的 重 写 规则 ) ， 将 规则 重新 还 原 出 SQL 语句 展现 给 我 们 。 可 以 通过 下 面 语 句 去 查询 数据 库 保 存 的 重 写 规则 ， 图 4-1 是 一 个 简单 视图 的 规则 


定义 。 


select ev action from pg rewrite where ev class-'v cxfa'::regclass; 


(IQUERY :commandType 1 :querysource O :cansetTag true :utilitystmt = :resultRelation 0 :intoc]l 
duse <> :hasAggs false :hnaswind-uncs false :hassubLinks false :rtable CARTE :alias [ALIAS :alias 
name *OLD* :colnames <} :eref [ALIAS :aliasname *OLD* :colnames ("a")]P :rtekind O :relid 268218 

:inh false :inFromc]l false :requiredPerms 0 :checkAsuUser 0 :forcebistRandom false :pseudocols < 
+} {RTE :alias {ALIAS :aliasname *WEW* :colnames <+} :eref {ALIAS :aliasname *NMEW* :colnames ("a 

Jt 
Zt 


j 


au 


E 


E 


De 
E ox or: | 上 < XD Xe Cr 


ns > :result partitions -Cr :result aosegnos < 
(1 row) 


图 4-1 视图 定义 在 数据 库 中 的 规则 定义 


5pg get viewdef 类 似 的 函数 还 有 很 多 ， 如 图 4-2 所 示 。 这 些 函 数 的 原理 都 类 似 ， 将 数据 字典 的 重 写 规则 翻译 为 SQL 语句 。 


postgres-H “df pg get *def 
schema 


cat ala z 


t_constraintdef 
et_constraint def 


LI" 


M 


LI 


ri 
I 


Hg 


On 
O3 


s 


EN 


ER 


果品 


pz cat ala 三 
5,2 catalog 
pg cati alog 
e c At alog 
pg_catalo; 
pz cat alog 
„sg cat alo E 
CE cart alog 
bg catalog 
(15 rows) 


y qu 


ba 


(qu 


图 4-2 ”获取 规则 的 定义 函数 


Qua 触发 器 在 Greenplum 里 面 是 不 支持 的 。 


comment 信 息 是 放 在 表 pg_description 中 的 。pg_description 表 结构 如 表 4-16 所 示 。 


表 4-16 pg_description 表 结构 


FRA THUS 
objoid | oid | 任意 oid 属性 | 这 条 描述 所 描述 对 象 的 oid 
classoid | oid - pg class.oid 这 个 对 象 出 现 的 系统 表 的 oid 


objsubid int4 对 于 一 个 表 字 段 的 注释 ， 它 是 字段 号 
对 于 其 他 对 象 类 型 ， 它 是 零 
description | text | | 作为 该 对 象 的 描述 的 任意 文本 


查询 表 上 的 comment 信 息 : 


testDB=# select COALESCE (description,'') as comment from pg description where objoid-'cxfa'::regclass and objsubid-0; 
comment 


a table created by scutshuxue.chenxf 
(1 row) 


查询 表 中 字段 的 comment 信 息 : 


Argument 


SA 2 


boolean 


intezer, 


boolean 


, £L 


boolean 


boolean 


aid 
nid 
old, baolcan 
nui 
text, 


data 


bnolean 


boolean 


( objoid 和 classoid 指向 表白 身 )。 


testDB-4 select b.attname as columnname, COALESCE(a.description,'') as comment 
testDB-4 from pg catalog.pg description a,pg catalog.pg attribute b 

testDB-4 where objoid-'cxfa'::regclass 
testDB-4 and a.objoid-b.attrelid 

testDB-i and a.objsubid-b.attnum; 

columnname | comment 

a | column a of table cxfa 

(1 row) 


前 面 介绍 了 各 个 数据 字典 ， 通 过 对 这 些 数据 字典 的 了 解 ， 我 们 可 以 清楚 地 知道 表 的 元 数据 都 分 别 放 在 哪些 表 中 ， 就 可 以 利用 这 些 元 数据 来 实现 一 些 特殊 的 功能 ， 比 如 下 面 介 


数 在 日 常 使 用 和 将 表 迁 移 到 另外 一 个 数据 库 中 是 非常 有 用 的 。 


get_create_sql 是 用 于 获取 表 和 视图 的 DDL 语 句 ， 不 支持 外 部 表 ， 建 表 语 句 包 括 以 下 内 容 : 


2) 索引 信息 。 


绍 的 获取 建 表 语 句 ， 这 个 函 


3) 分 区 信息 (主要 考虑 到 性 能 ， 目 前 只 支持 单一 分 区 键 ， 一 层 分 区 ) 。 
4) comment 信 息 。 

5) distributed key, 

6) 是 否 压缩 、 列 存储 、appendonly。 


7) 只 有 一 个 参数 ，tablename 为 schemaname.tablename， 输 出 为 


个 text 文 本 。 


下 面 是 这 个 消 数 的 代码 : 


CREATE or replace FUNCTION public.get create sql (tablename text) 
RETURNS text 


AS SS 


try: 


table name = tablename.lower().split('.')[1] 
table schema = tablename.lower().split('.')[0] 
except (IndexError): 

return "Please in put "tableschema.table name" ' 


# 获 取 表 的 oid 
get table oid = " select oid,reloptions,relkind from pg class where oid-'$s'::regclass"$ (tablename) 
try: 


rv oid = plpy.execute (get table oid, 5) 
if not rv oid: E E 
return 'Did not find any relation named "'+ tablename +'".' 
except (Error): 
return 'Did not find any relation named "'+ tablename -*'".' 
table oid = rv oid[0]['oid'] 
rv reloptions = rv oid[0]['reloptions'] 
rv relkind-rv oid[0]['relkind'] 
create sql=""; 
table kind-'table'; 
# 如 果 该 表 不 是 一 般 表 或 视图 ， 则 报销 
if rv relkind!-'r' and rv relkind!-'v': 
pipy.error('$s is not table or view'$(tablename)); 


Li 


elif rv relkind--'v': 
get view def-"select pg get viewdef($s,'t') as viewdef;"$ (table oid) 
rv viewdef-plpy.execute (get view def); 
create sql = 'create view $s as WMn'$(tablename) 
create sql += rv viewdef[0]['viewdef']-*'Wn' 
table kind-'view" 
else: 


#get column name and column type -获取 字段 名 、 字 段 类 型 和 默认 值 
get columns = "SELECT a.attname, pg catalog.format type(a.atttypid, a.atttypmod),^ 
= (SELECT substring (pg catalog.pg get expr(d.adbin, d.adrelid) for 128) ^ 
FROM pg catalog.pg attrdef d WHERE d.adrelid = a.attrelid AND d.adnum = a.attnum AND a.atthasdef) as default, \ 
a.attnotnull as isnull \ 
ROM pg catalog.pg attribute a \ 
ERE a.attrelid = $s AND a.attnum > 0 AND NOT a.attisdropped \ 
ORDER BY a.attnum;" $(table oid); 
rv columns = plpy.execute (get columns) 
fget distributed key -=-- 获 取 分 布 键 
get table distributionl = "SELECT attrnums FROM pg catalog.gp distribution policy t WHERE localoid = '" + table oid + "' " 
rv distributionl = plpy.execute(get table distributionl, 500) 
rv distribution2 = '' 
if rv distributionl and rv distributionl[0]['attrnums']: 
get table distribution2 = "SELECT attname FROM pg attribute WHERE attrelid = '" + table oid + "' AND attnum in (" + str(rv distributionl[0]['attrnums']).strir 
rv distribution2 = plpy.execute(get table distribution2, 500) 
#get index defin T u 


d. Hj 


create sql = 'create table $s(Mn'$(tablename) 
get index = "select pg get indexdef (indexrelid) AS indexdef from pg index where indrelid-$s"$ (table oid); 
rv index - plpy. ute(get index); 
#get partition info -获取 分 区 信息 
get parinfol = "select attname as columnname from pg attribute where attnum = (select paratts[0] from pg partition where parrelid=%s) and attreligd=%s;"%(table oid,t 


get parinfo2 =""" 
SELECT pp.parrelid,prl.parchildrelid, 
CASE 


HEN pp.parkind = 'h'::"char" THEN 'hash'::text 
WHEN pp.parkind = 'r'::"char" THEN 'range'::text 
WHEN pp.parkind = 'l'::"char" THEN 'list'::text 
ELSE NULL::text 


END AS partitiontype, 
pg get partition rule def(prl.oid, true) AS partitionboundary 

FROM pg partition pp, pg partition rule pri 

WHERE pp.paristemplat false AND pp.parrelid = $s AND prl.paroid = pp.oid 

order by prl.parname; 

"""% (table oid); 

v par parent = plpy.execute (get parinfol); 

v par info = plpy.execute (get parinfo2); 

max column len = 10 

max type len = 4 

max modifiers len = 4 

max default len-4 

for i in rv columns: 


if i['attname']: 
if max column len < i['attname']. len (): max column len = i['attname']. len () 
if i['format type']: ERA i B VENE UE 
if max type len < i['format type']. len (): max type len = i['format type']. len () 
if i['default']: 
if max type len < i['default']. len (): max default len = i['default']. len () 
first = True 本 » uu d 加 TII 
# 拼 接 字段 内 容 
for i in rv columns 
if first==True: 
split char-' '; 
First-False 
else 
split char-','; 
if i['attname!'] 
create sql += " " + split char + i['attname'].ljust(max column len +6) + '' 
else 
create sql += "" + split char + ' '.ljust(max column len + 6) 
if i['format type']: 
create sql += ' ' i['format type'].ljust(max type len + 2) 
else 
create sql += ' ' ' '.ljust(max type len + 2) 
if i['isnull'] and i['isnull']: B i 
create sql += ' ' ' not null '.1just(8) 
if i['default']: 
create sql += ' default ' + i['default'].1just(max default len + 6) 
create sql += "An" 
create sql +s ")" 
# 拼 接 with 语 句 的 内 容 
if rv reloptions: 
create sql+="with ("+str (rv reloptions).strip('(').strip(')').strip('[').strip(']') +") \n" 
if rv distribution2: p 


create sql += 'Distributed by (' 
for i in rv distribution2: 


create sql += i['attname'] + ',! 
create sql = create sql.strip(',') + ')' 
elif rv distributionl: 


create sql += 'Distributed randomlyNn' 
f v par parent: 
partitiontype = v par info[0]['partitiontype']; 


H- 


create sql+='\nPARTITION BY ' + partitiontype + "("+v par parent[0] ['columnname']+")\n An"; 
for i in v par info: E 

create sql+=" "+i['partitionboundary']+',\n'; 
create sql = create sql.strip(',\n'); 


create sql+="\n)" 
create sql += ";\n\n" 


# 拼 接 索 引信 息 
for i in rv index: 
create sql += i['indexdef']+ 


Mn! 


*get comment， 获 取 comment 信 息 

get table comment="se] lect 'comment on $s $s is '''|| COALESCE (description, '')||'''' as comment from pg description where objoid-$s and objsubid-0;"$ (table kind,tablename 
get column comment-"select 'comment on column $s.'||b.attname ||' is ''' || COALESCE(a.description, ') ||''' ' as comment from pg catalog.pg description a,pg catalog.pg = 
rv table | comnent-plpy. execute (get table comment); 

rv " column | comment-plpy.execute (get column comment); 


E g 


Or 


i in rv table 


create sql 


for i in rv column comment: 


create sql 


comment : 
+= i['comment' 


+= i['comment 


return create sql; 
$$ LANGUAGE plpythonu; 


图 4-3 是 一 个 get_create _ sql 的 例子 。 


]t';Nn' 


']+';\n'! 


testDB-£ select get create sql ('public.hello partition'); 
get create sql 


create table public.hello partition( 


,name 
,dw end date 


id 


ru 


mer ic 


)withtappendoniy-true, compr esslevel1-5) 
buted by Çi 
Bai Pi. BY range(dw end date) 


Distri 


PARTITION 
PARTITION 
PARTITION 
PARTITION 


J START 


p20101231 
p20110101 
D20110102 


START 
START 
>TART 


"2010-12-30" 
('2010-12-31' 
01-01' 
01-02' 


"2011- 
. 2011- 


character varying(32) 
ate 


:: date) 
idate) 
-:date) 


END 
END 
END 
END 


F 


"2010-12-31 
01-01' 
.'2011-01-02' 


" 2011- 
- 2011-01-03 


::date) 
::date) 
-: date) 


WITH 
WITH 
WITH 
WITH 


(appendonly-true, 
Cappendonly-true, 
Cappendonly-true, 


compress]level-5), 
compresslevel-5), 
compress ]level-5), 


date) 
: sdate 
::dare) 


dc M mien 
WITH (appendonly-true, 
WITH (appendonly-rrue, 


compress ]level- zal: 
compress level-5 
compress leve1-5) 


(2011-01-04: 
"2011-01-05" 


os Airai 
01-04" 


" 2011- 
"2011- 


END 
END 


PARTITION 
PARTITION 


START 
SGIAKT 


: :date 
p20110103 
pzo110104 


::dare) 


iE 


comment on table public.hello partition is 


'test partition'; 
comment on column public.hello partition. id is 


id” ; 


(1 row) 


图 4-3 ”获取 表 定 义 的 例子 


4.7.6 ”查询 表 上 的 视图 


在 Greenplum 中 ， 要 获取 一 个 表 上 依赖 的 视图 很 麻烦 ， 因 为 视图 定义 在 pg_rewite_rule 中 ， 存 放 成 一 种 规则 ， 而 且 上 面 没 有 索引 ， 所 以 获取 比较 麻烦 。 下 面 介 绍 通 过 pg_depend 表 来 获取 表 上 依赖 视图 


的 方法 (一 个 视图 是 定义 在 表 上 的 ， 这 个 视图 肯定 是 依赖 于 这 个 表 的 ， 所 以 在 pg_depend 中 有 响应 的 信息 ) 。 


创建 一 个 通过 oid 来 获取 模式 名 和 表 名 的 函数 : 


CREATE or replace FUNCTI 
RETURNS text 
AS $$ 
rv — plpy.execute ("se 
if rv: 
return rv[0O]['tabname'] 
else: 
return 'unkown.unf 
$$ LANGUAGE plpythonu; 


ON public.tabname oid(a oid) 


lect b.nspname||'.'||a.relname as tabname from pg class a,pg namespace b where a.relnamespace-b.oid and a.oid-$s"$(a)) 


ound' 


然后 建立 视图 : 


CRE 


ATE VIEW public.views on tables as 
LECT tabname oid(c.ev class) AS viewname, tabname oid(pc.oid) AS tablename 
FROM pg . depend a, pg ! depend b, pg class pc, pg rewrite c 


WHERE a.refclassid = 1259::0id AND b.deptype = 'i'::"char" AND a.classid = 2618::0id AND a.objid = b.objid AND a.classid = b.classid AND a.refclassid = b.refclassid AND a.re 
GROUP BY c.ev class, pc.oid; 
下 面 是 如 何 使 用 这 个 视图 的 例子 : 
testDB-4 create table public.testl(id int primary key,values text); 
NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "testl pkey" for table "testl" 
CREATE TABLE i 
testDB-4 create view public.v testl as select * from test1; 
CREATE VIEW E 
testDB=# select * from views on tables where tablename like 'public.testl'; 
viewname | tablename 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
public.v testl | public.testl 
(1 row) 


4.7.7 ”查询 表 的 数据 文件 创建 时 间 


在 Greenplum 中 ， 创 建 一 个 表 的 时 间 都 没有 记录 在 数据 字典 中 ， 要 获取 这 个 表 的 操作 时 间 ， 只 能 对 所 有 的 日 志文 件 进行 分 区 ， 提 取出 所 有 操作 的 语句 及 时 间 ， 然 后 获取 语句 中 的 表 名 ， 非 常 麻烦 。 


下 面 介绍 一 个 比较 取 巧 的 方法 来 获取 一 个 表 的 修改 时 间 。 在 Greenplum 中 ， 每 一 个 表 都 对 应 文件 系统 上 的 几 个 文件 ， 这 样 我 们 就 可 以 通过 数据 文件 的 创建 时 间 和 修改 时 间 佑 计 这 个 表 的 创建 时 间 。 


通过 一 些 自 定义 函数 ， 利 用 数据 字典 获取 数据 文件 对 应 的 数据 目录 和 文件 名 ， 就 可 以 在 数据 库 中 获取 到 文件 的 时 间 ， 从 而 可 以 定义 一 个 视图 来 方便 查询 ， 相 当 于 自 定义 一 个 元 数据 视图 。 
(1) 如 何在 数据 库 中 获取 一 个 文件 的 信息 
通过 它 可 以 获取 文件 的 信息 。 下 


Greenplum 自 带 了 一 个 国 数 pg stat file, 下 面 介 绍 获取 data _direcotry 目 录 下 pg_hba.conf 文 件 的 信息 。 


testDB-4 Wx 

Expanded display is on. 

LtestDB-4 select * from pg stat file('pg hba.conf'); 
-[ RECORD 1 j4----------- 一 一 一 一 一 一 一 一 一 一 一 一 

size 4074 

access 2012-02-11 19:45:57+08 

modification 2012-02-02 10:38:35+08 

change 2012-02-02 10:38:35+08 

creation 

isdir f 


但 是 这 个 函数 只 有 用 在 数据 库 data_directory 目 录 (用 show data directory) 下 才 可 显示 。 这 在 Greenplum 3.x 版 本 中 已 经 可 以 完成 了 ， 但 是 Greenplum 4.x 引 入 了 filespace 的 概念 (具体 参 


一 


章 数据 库 管 理 ”) ， 所 以 在 filespace 下 面 的 文件 不 能 用 pg_stat_ file 来 查看 。 因 此 下 面 重新 利用 plpythonu 编 写 一 个 函数 来 获取 文件 信息 ， 同 时 捕获 文件 不 存在 等 异常 ， 代 码 如 下 : 


creat 


, 


modifica 


, 


); 


e type sta 
size bigint 


. file as( 


access times 


camp (0) 


tion 


change times 


CR 


EATE 


or replace 


AS 9$ 


RETURNS stat | 


camp (0) 


file 


import os,time 


S 
a 


ize = None 
ccess =None 


FUNCTION public.get - 


timestamp (0) 


file stat(filename text) 


modification -None 
change -None 
try: 
a=os .Stat (filename) ; 
size = int(a.st size) 
#plpy.info (a) 
access = time.strftime ("%Y-%m-%d %H:%M:%S",time.localtime(a.st atime) ) 
modification = time.strftime ("%Y-%m-%d $H:9$M:$S",time.localtime(a.st mtime)) 
change = time.strftime ("$Y-$m-$d £$H:2M:$S",time.localtime (a.st ctime)) 
except Exception,e: 
pass 
fplpy.info(e); 
dpolpy.info([size,access,modification, change]) 
return [size,access,modification, change] 
$$ LANGUAGE plpythonu; 


Os Geenplum 3.x 的 比较 简单 ， 这 里 就 不 介绍 了 ， 下 面 就 介绍 Greenplum 4.x 的 。 


(2) 利用 数据 字典 拼接 出 文件 目录 和 文件 名 


- 文件 名 : pg_class 的 relfilenode 字 段 。 


. 表 空 间 : pg_class 的 reltablespace 字 段 ， 有 pg_default，pg_global 要 单独 考虑 。 


表 空 间 对 应 的 flespace: pg_tablespace。 


: Filespace 目 录 : pg_filespace_entry。 


database 的 oid: 查询 pg_database 和 当前 数据 库 名 。 


视图 的 定义 如 下 : 


create view public.v table modify time 


as 
select tab oid,schemaname,tablename, (filestat).access, (filestat) .modification, (filestat).change 
irom 
(select 
a.oid tab oid, 
e.nspname as schemaname, 
a.relname as tablename, 
get file stat(fselocation||'/'|| 
case when reltablespace-1664 then 'global' 
when reltablespace-0 then 'base'||'/'||d.oid 
else reltablespace||'/'||d.oid 
end 
||'7'||relfilenode) as filestat 
from pg class a, 
pg tablespace b, 
pg filespace entry C, 
pg namespace e, 
pg database d 
where d.datname-current database |() 
and (case when a.reltablespace = 0 then 1663 else a.reltablespace end)-b.oid 
and b.spcfsoid-c.fsefsoid 
and e.oid = a.relnamespace 
and c.fsedbid-1 
and a.relstorage in ('a','h!) 
and a.relkind = 'r' 
)t; 


视图 使 用 效果 如 图 4-4 所 示 。 


testDB=# select * from v table modify time where tablename- testO01 ; 


tab oid | schemaname | tablename | 


村 


23803 


(1 row) 


4.7.8 


在 Greenplum 中 ， 没 有 一 个 函数 可 以 直接 统计 分 区 表 的 大 小 ， 


分 区 表 总 大 小 


access modification 


| test00l | 2 


012-02-11 21:24:12 | 2012-02-11 21:24:12 | 2012-02-11 21:24:12 


图 4-4 获取 建 表 时 间 的 例子 


这 使 得 我 们 在 检查 分 区 表 大 小 的 时 候 要 将 所 有 子 分 区 的 大 小 累计 起 来 ， 然 后 再 做 一 个 聚合 ， 统 计 出 整 张 表 的 大 小 。 


下 面 提供 一 个 函数 将 检查 分 区 大 小 的 操作 封装 起 来 。 


见 “ 第 9 


#-- 创 建 一 个 type， 定 义 后 续 函 数 的 返回 类 型 


create type public.! 
lename text 
; Subparname 
tab] 
;prettysize 


, 


(tabl 


tex 
lesize bigint 


#-- 创 建 一 个 将 cid 转换 


CREATE 


or replace F 


AS $$ 
ret 


RETURNS 


urn a; 
$$ LANG 


text 


r 


UAGE p] 


CR 


FATE 


or rep] 


AS SS 


RETURNS se 


text); 
text 类 型 的 函数 
UNCTION regclass2text(a regclass) 


成 


pythonu; 
ace FUNCTI 


tof 


table size 


try: 
table name 


table size as 


[ON public.get table size(tablename text) 


tablename.lower().split('.')[1] 


except ( 


table schema = tablename.lower().split('.')[0] 


ndex 


Error): 


return 'Please in put "tableschema.table name" ' 


fget table oid- 获 取 表 的 oid 


get tab] 


try: 


except (l 
return 
table oid = rv oid[0]I[ 


Lf 


le oid = " select oid,reloptions from pg class where oid-'$s'::regclass"$ (tablename) 


return 'Did 


Error): 


'Did not 


Scheck if tabl 


rv oid - plpy.execute(get table oid, 5) 
not rv oid: 


not find any relation named " "+ tablename -*'".' 


find any relation named "'+ tablename -'".' 
'oid'] 
e is partition table - 判断 该 表 是 否 是 分 区 表 


check par table="select 


#ge 


tablesize sqll 


select regclass?! 


WHE 


,RE 


"IO 
$$( 


the sub partitions 


pp.paristemplate = 
table oid) 


tablesize sql12-""" 


select 


"nO rus 
$( 


tab 


text (tabname) 


count(*) from pg partition where parrelid-$s"$(table oid); 


of the table -获取 子 分 区 信息 


tablename,parname subparname,size tablesize,pg size pretty(size) prettysize 
false AND pp.parrelid = $s AND prl.paroid = pp.oid )t order by parruleorgd; 


rv-plpy.execute (check par table); 


ll 


rv[0] 
al-pl 


'count']-2-1: 


result rv-[]; 


4 


LO 


total 


"IO 
5( 


a2-pl 


res 
for 


ret 


total 


size-0; 

i in al: 
total size = 
Size-z" "ww 
i select 
tablename,to 


uL aii 
i in al: 


lpy.execute (tablesize sqll); 


total size + int(i['tablesize']); 


from (select pp.parrelid::regclass tabname,prl.parname,pg relati 


'$s' tablename,null as subparname,pg relation size($s) tablesize,pg size pretty(pg relation size($s)) prettysize; 
lename,table oid,table oid) 


'$s' as tablename, '###ALL#}##' as subparname,$d as tablesize,pg size pretty($d::bigint) prettysize; 


tal size,total size) 
py.execute (total size); 


t rv.append (a2[0]) 


result rv.append(i); 


urn result rv; 


else : 


res 
ret 


ult rv-plpy.execute (tablesize sql2) 


urn result rv; 


$$ LANGUAGE plpythonu; 


效果 如 图 4-5 所 示 。 


testDB=# select * from 


tabl 


etl.hello partition 
etl.hello partition 
etl.hello partition 
etl.hello partition 
etl.hello partition 
etl.hello partition 
| etl.hello partition 
(7 rows) 


4.7.9. 如 何 分 析 数 据 字 典 变化 


对 于 Greenplum 的 数据 字典 来 说 ， 总 的 数据 字典 也 只 有 60 来 张 表 ， 如 果 对 于 每 一 个 DDL 命 令 ， 我 们 能 够 知道 有 哪些 数据 字典 发 生 了 变化 ， 这 样 对 于 我 们 深入 了 解数 据 库 底层 逻辑 有 很 大 的 帮助 ， 了 解 了 


eriame 


FERALLEES 
p20101230 
p20101231 
p20110101 
p20110102 
p20110103 
p20110104 


图 4-5 获取 表 大 小 的 例子 


这 些 ， 对 数据 库 优 化 跟 原 数据 的 应 用 有 更 深入 的 帮助 。 


下 面 介绍 一 种 方法 来 观察 每 一 个 SQL 对 应 数据 字典 的 变化 ， 原 理 是 对 所 有 数据 字典 在 DDL 操 作 之 前 跟 之 后 都 做 一 个 快照 (记录 每 个 表 的 最 大 事务 1D 等 信息 ) ， 然 后 比较 两 个 快照 时 间 的 数据 发 生 了 哪些 


变化 ， 从 而 分 析出 数据 字典 的 变化 。 


首先 我 们 需要 创建 一 张 表 和 两 个 图 数 。 


: catalog ftesult 表 : 保存 snapshot 结 果 的 表 ， 每 一 个 表 有 一 个 ID。 


: catalog _snap 函 数 : 对 当前 数据 字典 的 最 大 ctid， 最 小 xmin (事务 id) 以 及 记录 数 ， 做 一 个 快照 (snapshot) ， 和 返回 快照 ID。 


: diff catalogi žk: 比较 两 个 snapshot 之 间 的 数据 差异 ， 找 出 变化 的 数据 字典 。 


Greenplum 中 记录 事务 ID 的 数据 类 型 xid 不 能 进行 比较 ， 故 使 用 UDF 将 其 转换 成 integer 类 型 ,方便 比较 : 


get table size('etl.hello partition'); 
subparname | tablesize | 


263080 


39792 
43832 
45008 
45024 
45008 
45016 


CREATE or replace FUNCTION public.xcid2int (id xid) 
RETURNS integer 
AS $$ 
return id; 
$$ LANGUAGE plpythonu; 
表 结 构 : 
create table public.catalog cnt( 
cnt integer 
,Ccctid tid 
,Cxmin integer 
,catatable character varying (248) 
; count integer 
)Distributed by (catatable); 


创建 snapshot 的 国 数 : 


CR 


EATE 


or replace FUNCTI 


RETURNS integer 


[ON public.catalog snap() 


AS $$ 
rv-plpy.execute("select max(cnt) cnt from catalog cnt"); 
cntnumber = '1' E 
if rv[0]['cnt']: 
folpy.info (cntnumber); 
cntnumber = str(rv[0]['cnt']-*41); 
sql=" ww 
select 'insert into catalog cnt select $s cnt,max(ctid),max(xcid2int(xmin)),'''||a.relname ||''' as catatable,count(*) from '||b.nspname||'.'||a.relname as n 
from pg class a,pg namespace b 
where b.nspname-'pg catalogc' 
and a.relnamespace-b.oid 
and relkind in ('r') 
order by b.nspname,relname; 
"""$ (cntnumber) 
fplpy.info (sql) 
rv-plpy.execute (sql); 
for i in rv: 
pipy.execute (i['n']); 
return int (cntnumber) 
$$ LANGUAGE plpythonu; 


比较 两 个 snapshot 之 间 差 异 的 函数 : 


create type public.catalog result as ( 


catatable character varying (248) 
‚pre cctid tid 

,pre cxmin integer 

,pre count integer 

cur cctid tid 

,cur cxmin integer 

cur count integer 


CREATE or replace FUNCTION public.diff catalog (before int,after int) 
RETURNS setof catalog result 


sql=" LLS LI 
select x.catatable,x.cctid as pre cctid,x.cxmin as pre cxmin,x.count as pre count 
ry.cctid as cur cctid,y.cxmin as cur cxmin,y.count as cur count 


from 
(select * from catalog cnt where cn 
(select * from catalog cnt where cni 
where x.catatable = y.catatable 
and (x.cctid«»y.cctid 
or x.cxmin«c»y.cxmin 
or x.count«»y.count) 
"""$(before,after) 
return plpy.execute (sql); 
$$ LANGUAGE plpythonu; 


使 用 方式 如 下 : 


testDB=# select catalog snap(); 
catalog snap 


(1 row) 
testDB-4 create table test snap(id int,name text) distributed by (id); 
CREATE TABLE E 
testDB=# select catalog snap(); 

catalog snap 


testDB-£ select * from diff catalog(9,10); 
catatable | pre_cctid | pre cxmin | pre count | cur cctid | cur cxmin | cur. count 


gp. distribution policy (0,159) 
gp relation node (1,134) 
gp persistent relation node [ f 
pg_stat_last_operation (2 
pg attribute (2 
pg class ( 

pg. depend ( 

pg. index [ 

pg type ( 

(9 rows) 


十 
| 
| 
| 
| 
| 
| 
| 
| 
| 
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图 4-6 ”获取 数据 字典 变化 的 例子 
以 下 是 使 用 此 方法 观察 数据 字典 的 注意 事项 : 
- 要 在 比较 干净 的 测试 环境 中 进行 实验 ， 这 样 分 析 数 据 字 典 时 比较 快速 。 
. 这 个 方法 只 是 主 节点 上 数据 字典 的 变化 ， 要 观察 Segment 的 变化 ， 可 以 直接 登录 到 Segment 节 点 进行 同样 的 操作 。 
` 在 同一 时 间 ， 只 能 有 一 个 DDL 操 作 ， 避 免 会 话 进行 操作 而 造成 干扰 。 
. 测试 环境 应 当 尽 量 对 数据 字典 进行 vacuum 操 作 ， 避 免 ctid 发 生变 化 。 


. 这 个 方法 只 能 观察 到 数据 字典 发 生 insert 和 update 操 作 ， 但 是 这 对 常见 的 DDL 操 作 已 经 足够 了 。 如 果 要 观察 到 所 有 的 操作 ， 则 需要 将 整个 数据 字典 都 进行 保存 ， 执 行 操作 后 将 变化 后 的 数据 字典 与 变化 
出 


4.7.10 ”获取 数据 库 锁 信息 


视图 pg_locks 保 存 了 数据 库 的 锁 信 息 ， 但 是 这 个 视图 很 不 方便 。 要 查询 一 个 表 被 哪个 进程 锁 住 了 ， 就 需要 将 pg_class、pg _locks、pg_stat_activity 关 联 起 来 ， 如 下 : 


SELECT pgl.locktype AS lorlocktype, pgl.database AS lordatabase, pgc.relname AS lorrelname, pgl.relation AS lorrelation, pgl.transaction AS lortransaction, pgl.pid AS lorpid, x 
FROM pg locks pgl 
JOIN pg class pgc ON pgl.relation - pgc.oid 
JOIN pg stat activity pgsa ON pgl.pid = pgsa.procpid 

ORDER BY pgc.relname; 


Qi 上 面 这 个 SQL 就 是 gp_toolkit.gp_locks_on_relation 的 定义 ， 在 Greenplum 3.x 中 可 以 自己 创建 。 


Pg_stat_activity 可 以 获取 当前 正在 运行 的 SQL， 具 体 的 结构 描述 可 以 参考 PostgreSQL 的 官方 文档 ， 比 较 简 单 。 


下 面 再 介绍 两 个 函数 ， 杀 掉 当 前 的 进程 ， 参 数 都 是 这 个 SQL 的 进程 号 (pid) 。 


. pg cancel backend: 取消 一 个 正在 执行 的 SQL。 


. pg terminate backend: 终止 一 个 正在 执行 的 SQL。 


pg terminate backendkpg_cancel_backend 的 强度 大 ， 一 般 要 杀 掉 SQL 进程 ， 可 以 先 用 pg_cancel backend 杀 掉 SQL 进 程 ， 如 果 杀 不 掉 ， 再 用 pg terminate backend 将 SQL 进程 杀 掉 。 


例如 ， 可 以 利用 这 个 函数 ， 将 锁 住 表 test001 的 进程 杀 掉 ， 如 图 4- 7 所 示 。 


estDB-* SELECT Dre .terminate backend(lorpid) FROM gp toolkit.gp locks on relation where lorrelname- 七 estOol 
pg. terminate bac 


end 


4.8 Gp toolkit 介 绍 


图 4-7 将 锁 住 茶 个 表 的 进程 杀 掉 


Greenplum 4.x 之 后 的 版 本 提供 了 gp_toolkit 的 工具 箱 ， 方 便 用 户 对 数据 字典 进行 分 析 和 管理 ， 这 个 工具 箱 都 是 基于 数据 字典 建立 的 视图 (所 有 的 视图 都 在 gp_toolkit 的 schema 下 面 ， 如 果 经 常 使 用 这 
个 工具 箱 ， 建 议 将 这 个 schema 加 入 到 search_path 中 ) ， 表 4-17 描 述 了 这 些 视图 的 功能 。 


视图 名 
. gp fullname 
. gp is append only 
| gp number of segments 
|. gp user data tables 
. gp user data tables readable 
| gp user namespaces 
| gp user tables 
gp bloat diag 
gp bloat expected pages 


gp locks on relation 

gp locks on resqueue 

. gp log master ext 

. gp log segment ext 
gp log command timings 
gp log database 

gp log master concise 


gp log system 


gp param settings seg value diffs 
gp resq activity 

gp resq activity by queue 

gp resq priority backend 

gp resq priority statement 

gp resq role 


gp resqueue status 


| 


表 4-17 gp_toolkit 工 具 箱 视 图 描述 


描 yh 
显示 每 一 个 relation 的 oid 、 模 式 名 和 表 名 


对 应 一 个 oid 是 否 是 appendonly X 

集群 中 有 和 多少 个 segment 

用 户 自 定 义 表 信 息 ， 在 ”gp_user tables 中 ， 每 个 分 区 表 就 算 一 张 表 
当前 用 户 有 select 权限 的 表 信 息 

用 户 目 定义 的 schema 

用 户 目 定义 的 表 信 息 ， 不 包括 系统 schema 下 的 表 

获取 数据 库 中 哪些 表 需 要 进行 vacuum full 

K oid 对 应 的 理想 的 表 大 小 和 实际 的 表 大 小 ， 不 统计 appendonly X, 


要 是 分 析 表 对 应 的 数据 文件 的 空洞 


查询 relation 上 的 锁 信 息 

查询 资源 队列 中 的 信息 

可 执行 外 部 表 ， 查 询 主 节点 上 的 log 信息 

可 执行 外 部 表 ， 查 询 segment 节点 上 的 log 信息 

查询 每 个 session 执行 的 命令 的 时 间 

查询 当前 数据 库 的 log 信息 ， 包 插 主 节 点 和 segment 节点 
M. gp log master ext 选择 几 个 字段 ， 简 要 的 log 描述 
将 主 节点 和 segment 节点 的 log 信息 汇总 在 一 起 


查找 出 所 有 segment 节点 的 配置 参数 不 一 样 的 地 方 


资源 队列 相关 


视图 名 jä ” 述 


gp size of all table indexes 
gp size of database 
gp size of index 


gp size of partition and indexes disk 
的 小 乡 idis CEERD IRR RAE fas: 


ep size of schema disk ru 
= 个 表 或 索引 的 大 小 ， 然 后 再 汇 Dx. 


gp size of table and indexes disk : » 
gp size of table and indexes licensing 
gp size of table disk 


gp size of table uncompressed 


ix JL' d 视图 分 别 从 数据 库 各 个 维度 aos 索引 、schema 等 ) 统计 数据 


十 pg relation size ^j PK ŽK H 


(^ 视图 执行 效率 上 看 ， 


gp stats missing 查询 当前 数据 库 中 ， 没 有 统计 信息 的 表 (精确 到 字段 ) 
gp table indexes 获取 当前 用 户 有 权限 访问 的 表 的 索引 信息 名 


Qum 如果 gp_toolkit 没 有 安装 ， 可 以 用 下 面 这 个 命令 进行 安装 : 


C$ EE 


psql -f SGPHOME/share/postgresql/gp toolkit.sql 


下 面 我 们 选 一 个 视图 (gp bloat expected pages) 来 详细 讲解 下 ， 以 加 深 对 Greenplum 数 据 字 典 的 认识 。 


这 个 视图 是 对 堆 表 (heap) 理想 大 小 与 实际 大 小 的 比较 。 首 先 看 一 下 这 个 视图 的 定义 : 


testDB-$ Nd gp bloat expected pages 
View "gp toolkit.gp bloat . expected | pages" 
Column | Type | Modifiers 


btdrelid | oid | 

btdrelpages | integer | 

btdexppages | numeric | 

View definition: 

SELECT subq.btdrelid, subq.btdrelpages, 
CASE 


WHEN subq.btdexppages < subq.numsegments::numeric THEN subq. 
numsegments::numeric 
ELSE subq.btdexppages 

END AS btdexppages 
FROM ( SEL 


FROM gp number of segments) AS numsegments 
FROM ( SELECT pgc.oid, pgc.reltuples, pgc.relpages 
FROM pg class pgc 
WHERE NOT (EXISTS ( SELECT gp is append only.iaooid 
FROM gp is append : only 


WHERE gp is append only.iaooid = pgc.oid AND gp is append only. iaotype = = true))) pac 


FROM pg statistic pgs 
GROUP BY pgs.starelid) btwcols ON pgc.oid = btwcols.starelid 
WHERE btwcols.starelid IS NOT NULL) subq; 


其 中 ，pg_class 中 的 relpages 字 段 作 为 实际 大 小 ， 理 想 大 小 通过 pg _statistic 加 上 pg_class 两 个 合 起 来 算 ， 算 法 如 下 : 
page 数 | 
块 大 小 


从 这 个 视图 的 定义 我 们 可 以 看 出 表 大 小 的 估算 方法 ， 也 可 以 看 到 这 个 视图 的 局 限 性 : 
. 表 大 小 都 是 估算 值 ， 因 为 统计 信息 只 是 估计 值 。 
. 依赖 于 统计 信息 收集 的 时 间 ， 要 更 加 准确 ， 需 要 重新 分 析 、 收 集 最 新 的 信息 。 


知道 了 这 个 方法 ， 我 们 可 以 简单 验证 这 个 估算 方法 的 准确 性 ， 如 图 4-8 所 示 。 


RR RHA 计划 六 小 REA 


1 ltest001 39111 33410 |39111.0 
2 |test01 30019 27891 |30019.0 


图 4-8 AX VS 


ECT pgc.oid AS btdrelid, pgc.relpages AS btdrelpages, ceil((pgc.reltuples * (25::double precision + btwcols.width))::numeric / current setting('block size': 


LEFT JOIN ( SELECT pgs.starelid, sum(pgs.stawidth::double precision * (1.0::double precision - pgs.stanullfrac)) AS width 


 (25* Y (字段 长 度 * (1 ZEE ))) * 表 的 总 行 数 


ZAAN 


17.11 
7.61 


:text): 


这 些 表 的 数据 都 是 递增 的 ， 即 没有 发 生 过 update 和 delete 的 ， 所 以 数据 文件 中 应 该 是 没有 空洞 的 。 可 以 看 出 ， 估 计 值 还 是 有 挺 大 的 差异 的 ， 所 以 这 个 表 得 出 的 只 能 是 大 概 的 估计 值 ， 对 于 不 同 的 表 ， 偏 
差 会 比较 大 。 


M 


建议 有 兴趣 了 解数 据 字 典 的 读者 认真 看 看 这 些 视图 的 定义 ， 这 对 深入 了 解数 据 字 典 有 很 大 的 帮助 。 


本 章 介 绍 了 常用 数据 字典 的 表 结 构 ， 介 绍 了 各 个 数据 字典 之 间 的 关系 ， 还 通过 几 个 例子 加 深 读者 对 数据 字典 的 认识 。 

深入 了 解数 据 字 段 对 于 数据 库 元 数据 信息 的 获取 有 很 大 的 帮助 ， 我 们 可 以 通过 这 些 信息 开发 一 些 工具 ,方便 优化 数据 库 ， 比 如 : 
: 查询 建 表 时 间 有 助 于 删除 一 些 临 时 表 ，; 

- 数据 交换 工具 可 以 通过 数据 字段 获取 表 的 字段 、 分 布 键 等 信息 ; 

“ 当 数 据 字 典 出 问题 时 能 够 及 时 修复 ， 


- 获取 建 表 语 句 ， 方 便 数 据 迁 移 及 表 重 建 等 。 


本 章 还 介绍 了 几 种 研究 数据 字典 的 方法 ， 有 兴趣 的 读者 可 以 利用 这 些 方法 深入 学 习 数 据 字 典 ， 了 解数 据 库 的 内 部 结构 ， 加 深 对 Greenplum 的 了 解 。 


第 5 草 "执行 计划 详解 


本 章 开始 部 分 将 讲解 在 数据 库 中 分 析 SQL 性 能 问题 最 重要 的 手段 一 一 查看 执行 计划 。Greenplum 是 基于 PostgreSQL 开 发 的 ， 其 执行 计划 大 多 是 跟 PostgreSQL 一 样 的 ， 但 是 由 于 Greenplum 是 分 布 式 并 
行 数据 库 ， 在 SQL 执 行 上 有 很 多 MPP 的 痕迹 ， 因 此 在 理解 Greenplum 的 执行 计划 时 ， 一 定 要 将 其 分 布 式 框架 熟 读 在 心 ， 从 而 能 够 通过 调整 执行 计划 给 SQL 带 来 很 大 的 性 能 提升 。 


5.1 执行 计划 入 门 
5.1.1 什么 是 执行 计划 


执行 计划 就 是 数据 库 运 行 SQL 的 步骤 ， 相 当 于 算法 。 读 懂 Greenplum 的 执行 计划 ， 对 理解 SQL 的 正确 性 及 性 能 有 很 大 的 帮助 。 执 行 计划 是 数据 库 使 用 者 了 解数 据 库 内 部 结构 的 一 个 重要 途径 。 
举 一 个 简单 的 例子 ， 一 个 人 要 去 旅行 ， 从 地 点 A 到 地 点 B， 怎 么 去 呢 ” 坐车 还 是 搭 机” 如何 从 A 到 B， 这 个 就 是 一 个 执行 计划 。 这 个 旅行 要 考虑 的 东西 有 : 


. A 点 到 也 点 的 距离 。 

飞机、 汽车 、 火 车 的 时 刻 表 。 
整个 行程 的 费用 。 

- 消耗 的 时 间 。 


前 两 点 可 以 理解 为 数据 库 的 统计 信息 ， 后 两 点 可 以 理解 为 整个 SQL 的 消耗 。 我 们 需要 寻找 一 个 最 好 的 行程 以 使 SQL 的 消耗 达到 最 小 。 多 种 消耗 之 间 我 们 需要 取 一 个 权重 ， 把 消耗 重新 定义 为 一 个 单位 ， 
就 像 在 数据 库 中 评价 消耗 有 CPU、 磁 盘 、 重 分 布 网 络 开 销 等 。 可 以 将 距离 想象 成 表 的 大 小 ， 将 时 刻 表 想象 成 表 中 每 个 字段 的 统计 信息 (唯一 性 ， 值 的 分 布 ) 等 。 


如 果 从 A 点 到 B 点 ， 没 有 直达 的 汽车 或 者 飞机， 那么 就 要 选择 先 到 中 间 点 C 点 或 者 D 点 ， 通 过 计算 消耗 最 小 值得 出 最 佳 的 方案 ， 这 就 像 要 将 数据 库 中 三 张 表 关联 ， 到 | 底 是 先 关 联 哪 两 张 表 才能 达到 最 佳 性 
能 一 样 。 


前 面 在 第 2 章 的 时 候 已 经 简单 介绍 了 执行 计划 应 该 如 何 阅读 ， 这 一 章 我 们 将 详细 介绍 Greenplum 的 执行 计划 ， 会 用 比较 多 的 篇 幅 讲解 分 布 式 数据 库 的 SQL 是 如 何 执行 的 ， 建 议 读者 仔细 阅读 本 章 。 
5.1.2 ”查看 执行 计划 


跟 PostgreSQL 一 样 ，Greenplum 通 过 explain 命 令 来 查看 执行 计划 。 具 体 的 语法 如 下 : 


EXPLAIN [ ANALYZE ] [ VERBOSE ] statement 
各 个 参数 的 含义 如 下 : 
: ANALYZE: 执行 命令 并 显示 实际 运行 时 间 。 


: VERBOSE: 显示 规划 树 完 整 的 内 部 表现 形式 ， 而 不 仅 是 一 个 摘要 。 通 常 ， 这 个 选项 只 是 在 特殊 的 调试 过 程 中 有 用 。VERBOSE 输 出 是 否 打印 工整 的 ， 具 体 取决 于 配置 参数 explain_pretty_btint 的 值 。 


"statement: 查询 执行 计划 的 SQL 语句 ， 可 以 是 任何 SELECT、INSERT、UPDATE、DELETE、VALUES、EXECUTE、DECLARE 语 句 。 


例子 : 
testDB-4 explain select * from testi; 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 


-> Seq Scan on testl  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 


(2 rows) 


5.2 分布 式 执行 计划 概述 
5.2.1 架构 


数据 库 架 构 本 身 决定 分 布 式 执行 计划 框架 ， 在 理解 Greenplum 执 行 计 划 的 时 候 ， 要 将 其 sharedNothing 的 架构 牢记 于 脑 中 。 这 里 笔者 再 重复 一 下 Greenplum 的 架构 图 ， 以 使 读者 能 够 很 好 地 理解 
Greenplum 的 执行 计划 。 


Greenplum 的 详细 架构 会 在 第 7 章 中 具体 介绍 。 这 里 先 通过 图 5-1 简 单 了 解 下 。 
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图 5-1 Greenplum2g 4 
图 5-1 很 好 地 说 明了 ShareNothing 的 特点 : 
: 底层 的 数据 完全 不 共享 。 
- dk ASSegment Ap — 35 2 JE. 


. 每 一 个 节点 都 通过 网 络 连接 在 一 起 。 

5.2.2” 重 分 布 与 广播 
关联 数据 在 不 同 节 点 上 ， 对 于 普通 关系 型 数据 库 来 说 ， 是 无 法 进行 连接 的 。 关 联 的 数据 需要 通过 网 络 流入 到 一 个 节点 中 进行 计算 ， 这 样 就 需要 发 生 数据 迁移 。 数 据 迁 移 有 广播 和 重 分 布 两 种 。 
图 5-2 所 示 很 好 地 展示 了 Greenplum 中 重 分 布 数据 的 实现 。 


在 图 5-2 中 ， 两 个 Segment 分 别 进行 计算 ,但 由 于 其 中 一 张 表 的 关联 键 与 分 布 键 不 一 致 ， 需 要 关联 的 数据 不 在 同一 个 节点 上 ， 所 以 在 SLICE1 上 需要 将 其 中 一 个 表 进 行 重 分 布 ， 可 理解 为 在 每 个 节点 之 间 
互相 交换 数据 。 


关于 广播 与 重 分 布 ，Greenplum 有 一 个 很 重要 的 概念 : Slice (切片 ) 。 每 一 个 广播 或 重 分 布 会 产生 一 个 切片 ， 每 一 个 切片 在 每 个 数据 节点 上 都 会 对 应 发 起 一 个 进程 来 处 理 该 slice 负 责 的 数据 ， 上 一 层 负 
责 该 slice 的 进程 会 读 取 下 级 slice 广 播 或 重 分 布 的 数据 ， 然 后 进行 相应 的 计算 。 


Qus 由 于 在 每 个 Segment 上 每 一 个 Slice 都 会 发 起 一 个 进程 来 处 理 ， 所 以 在 SQL 中 要 严格 控制 切片 的 个 数 ， 如 果 重 分 布 或 者 广播 太 多 ， 应 适当 将 SQL 拆 分 ， 避 免 由 于 进程 太 多 给 数据 库 或 者 是 机 器 带 来 
太 多 的 负担 。 进 程 太 多 也 比较 容易 导致 SQL 失败 。 
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Slice 之 间 如 何 交 互 可 以 从 图 5-3 中 看 出 。 


E]5-3 ”数据 在 Slice 之 间 的 传输 


下 面 通过 一 个 实际 的 数据 形象 地 介绍 数据 在 Segment 中 的 切 分 。 比 方 说 ， 对 一 个 成 绩 表 来 说 ， 分 布 键 是 学 号 (sno) ， 我 们 现在 要 按照 成 绩 (score) 来 执行 Group By， 那 么 就 需要 将 数据 按照 score 字 


布 ， 重 分 布 前 会 对 每 个 egment 的 数据 进行 局 部 汇总 ， 重 分 布 后 ， 同 一 个 score 的 数据 都 在 同一 个 Segment 上 ， 再 进行 一 次 汇总 即 可 ， 数 据 的 具体 情况 如 图 5-4 所 示 。 


图 5-4 ”执行 Group By 导致 的 数据 重 分 布 


5.2.3 Greenplum Master 的 工作 


Master 在 SQL 的 执行 过 程 中 承担 着 很 多 重要 的 工作 ， 主 要 如 下 : 
© 执行 计划 解析 及 分 发 。 

将 子 节点 的 数据 汇集 在 一 起 。 

- 将 所 有 Segment 的 有 序数 据 进行 归并 操作 (归并 排序 ) 。 
.聚合 函数 在 Masteft 上 进行 最 后 的 计算 。 


. 需要 有 唯一 的 序列 的 功能 (如 开 窗 另 数 不 带 partiton by 字句 ) 。 


举 个 简单 的 例子 ， 在 计算 学 生 的 平均 分 数 时 ， 在 每 个 节点 上 先 计算 好 sum 和 count 值 ， 然 后 再 由 Master 汇 总 ， 


DE 


再 次 进行 少量 


计算 ， 算 出 平均 值 ， 如 图 5-5 所 示 。 
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图 5-5 “Mastet 在 聚合 计算 的 作用 


5.3 ”Greenplum 执 行 计划 中 的 术语 
本 节 将 介绍 在 查看 执行 计划 的 时 候 出 现 的 术语 的 含义 ， 以 方便 读者 更 好 地 阅读 执行 计划 。 


5.3.1 ”数据 扫描 方式 


Greenplum 扫 描 数据 的 方式 有 很 多 种 ， 每 一 种 扫描 方式 都 有 其 特点 ， 下 面 将 逐一 介绍 。 
(1) Seq Scan: 顺序 扫描 


顺序 扫描 在 数据 库 中 ， 是 最 常见 ， 也 是 最 简单 的 一 种 方式 ， 就 是 将 一 个 数据 文件 从 头 到 尾 读 取 一 次 ， 这 种 方式 非常 符合 磁盘 的 读 写 特性 ， 顺 序 读 写 ， 吞 吐 很 高 。 对 于 分 析 性 的 语句 ， 顺 序 扫描 基本 上 是 
对 全 表 的 所 有 数据 进行 分 析 计 算 ， 因 此 这 一 种 方式 非常 有 效 。 在 数据 仓库 中 ， 绝 大 部 分 都 是 这 种 扫描 方式 ， 在 Greenplum 中 结合 压缩 表 一 起 使 用 ， 可 以 减少 磁盘 10 的 损耗 。 


(2) Index Scan: 索引 扫描 


索引 扫描 是 通过 索引 来 定位 数据 的 ， 一 般 对 数据 进行 特定 的 筛选 ， 筛 选 后 的 数据 量 比较 小 〈 对 于 整个 表 而 言 ) 。 使 用 索引 进行 筛选 ， 必 须 事先 在 筛选 的 字段 上 建立 索引 ， 查 询 时 先 通 过 索引 文件 定位 到 
实际 数据 在 数据 文件 中 的 位 置 ， 再 返回 数据 。 


对 于 磁盘 而 言 ， 索 引 扫 描 都 是 随机 IO， 对 于 查询 小 数据 量 而 言 ， 速 度 很 快 。 

(3) Bitmap Heap Scan: 位 图 堆 表 扫描 

当 索 引 定位 到 的 数据 在 整 表 中 占 比 较 大 的 时 候 ， 通 过 索引 定位 到 的 数据 会 使 用 位 图 的 方式 对 索引 字段 进行 位 图 堆 表 扫描 ， 以 确定 结果 数据 的 准确 。 对 于 数据 仓库 应 用 而 言 ， 很 少 用 这 种 扫描 方式 。 
下 面 通 过 一 个 简单 的 例子 来 说 明 什么 时 候 会 太 生 Bitmap Heap Scan, 


创建 pg_class_ tmp 并 编造 一 些 测试 数据 : 


testDB-4 create table pg class tmp as select * from pg class distributed by (relname); 
SELECT 1324 


Pg_class 中 的 relkind 字 段 ， 重 复 值 很 多 ， 在 这 个 字段 上 建立 索引 : 


testDB=# create index pg class tmp relkind idx on pg class tmp (relkind); 
CREATE INDEX 


通过 参数 enable_seqscan 禁 止 顺序 扫描 ， 确 保 执行 计划 通过 pg_class tmp relkind idx 来 查询 数据 : 
testDB=# set enable seqscan = off; 
SET 
testDB=# explain select * from pg class tmp where relkind-'c'; 
QUERY PLAN 
Gather Motion 6:1  (slicel; segments: 6)  (cost-100.33http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..271.16 rows-2 v 
-> Bitmap Heap Scan on pg class tmp  (cost-100.33http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..271.16 rows-2 wic 
Recheck Cond: relkind = 'c'::"char" 
-> Bitmap Index Scan on pg class tmp relkind idx  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/.. 
Index Cond: relkind = 'c'::"char" 
Settings: enable seqscan-off 
(6 rows) 


由 于 relkind 的 重复 值 很 多 ， 因 此 数据 库 采 用 位 图 访问 索引 的 方式 来 查询 数据 。 
(4) Tid Scan: 通过 隐藏 字段 ctid 扫 摘 


ctid 是 PostgreSQL 中 标记 数据 位 置 的 字段 ， 通 过 这 个 字段 来 查找 数据 ， 速 度 非 常 快 ， 类 似 于 Oracle 的 rowid。Greenplum 是 一 个 分 布 式 数据 库 ， 每 一 个 子 节点 都 是 一 个 PostgreSQL 数 据 库 ， 每 一 个 子 
节点 都 单独 维护 自己 的 一 套 ctid 字 段 。 


因此 ， 如 果 在 Greenplum 中 通过 ctid 来 找 数据 ， 会 有 如 下 的 提示 : 


Select * from testl where ctid-'(1,1)'; 
NOTICE: SELECT uses system-defined column "testl.ctid" without the necessary companion column "testl.gp segment id" 
HINT: To uniquely identify a row within a distributed table, use the "gp segment id" column together with the "ctid" column. 


就 是 说 ， 如 果 想 确定 到 具体 一 行 数据 ， 还 必须 通过 制定 另外 一 个 隐藏 字段 (gp segment id) 来 确定 取 哪 一 个 数据 库 的 ctid 值 。 


Select * from testl where ctid-' (1,1)' and gp segment id-1; 


(5) Subquery Scan'*SELECT*': 子 查 询 扫描 
只 要 SQL 中 有 子 查询 ， 需 要 对 子 查询 的 结果 做 顺序 扫描 ， 就 会 进行 子 查 询 扫描 。 
(6) Function Scan: 函数 扫描 


数据 库 中 有 一 些 函 数 的 返回 值 是 一 个 结果 集 ， 当 数据 库 从 这 个 结果 集中 取出 数据 的 时 候 ， 就 会 用 到 这 个 Function Scan ， 顺 序 获取 函数 返回 的 结果 集 (REAGAN, MEFR) , AU: 


explain select * from generate series (1,10); 


5.3.2 分布 式 执行 
(1) Gather Motion (N: 1) 
聚合 操作 ， 在 Master 上 将 子 节点 所 有 的 数据 聚合 起 来 。 一 般 的 聚合 规则 是 : 哪 一 个 子 节点 的 数据 先 返 回 到 Master 上 就 将 该 节点 的 数据 先 放 在 MASTER 上 。 
(2) Broadcast Motion (N: N) 


广播 ， 将 每 个 Segment 上 某 一 个 表 的 数据 全 部 发 送 给 所 有 Segment。 这 样 每 一 个 Segment 都 相当 于 有 一 份 全 量 数据 ， 广 播 基本 只 会 出 现在 两 边关 联 的 时 人 息 ， 相 关内 容 再 选择 广播 或 者 重 分 布 ，5.7 节 中 
有 详细 的 介绍 。 


(3) Redistribute Motion (N: N) 


当 需 要 做 跨 库 关 联 或 者 聚合 的 时 候 ， 当 数据 不 能 满足 广播 的 条 件 ， 或 者 广播 的 消耗 过 大 时 ，Greenplum 就 会 选择 重 分 布 数据 ， 即 数据 按照 新 的 分 布 键 (关联 键 ) 重新 打 散 到 每 个 segment 上 ， 重 分 布 一 
般 在 以 下 三 种 情况 下 会 发 生 : 


` 关联 : 将 每 个 Segment 的 数据 根据 关联 键 重 新 计算 hash 值 ， 并 根据 Greenplum 的 路 由 算法 路 由 到 目标 子 节点 中 ， 使 关联 时 属于 同一 个 关联 键 的 数据 都 在 同一 个 Segment 上 。 


: Group By: 当 表 需要 Group By, 但 是 Group By 的 字段 不 是 分 布 键 时 ， 为 了 使 Group By 的 字段 在 同一 个 库 中 ，Greenplum 会 分 两 个 Group By 操作 来 执行 ， 首 先 ， 在 单 库 上 执行 一 个 Group By 操作 ， 从 而 减 
少 需 要 重 分 布 的 数据 量 ; 然后 将 结果 数据 按照 Group By 字段 重 分 布 ， 之 后 再 做 聚合 获得 最 终结 果 。 


- FAAA: 跟 Group By 类 似 ， 开 窗 函 数 (Window Function) 的 实现 也 需要 将 数据 重 分 布 到 每 个 节点 上 进行 计算 ， 不 过 其 实现 比 Gtoup By 更 复杂 一 些 。 
(4) 切片 (Slice) 


Greenplm 在 实现 分 布 式 执行 计划 的 时 候 ， 需 要 将 SQL 拆 分 成 多 个 切片 (Slice) ， 每 一 个 slice 其 实 是 单 库 执行 的 一 部 分 SQL， 上 面 描述 的 每 一 个 motion 都 会 导致 Greenplum 多 一 个 Slice 操 作 ， 而 每 一 个 
Slice 操 作 子 节点 都 会 发 起 一 个 进程 来 处 理 数据 。 


所 以 应 该 尽量 控制 Slice 的 个 数 ， 将 太 复 杂 的 SQL 拆 分 ， 减 少 进程 数 ， 在 执行 计划 中 ， 最 常见 的 Slice 关 键 字 的 地 方 就 是 广播 跟 重 分 布 ， 如 下 : 


Broadcast Motion 6:6  (slicel) 
Gather Motion 6:1 (slicel) 


5.3.3 ”两 种 聚合 方式 


HashAggregate 和 GroupAggregate 这 两 种 聚合 方式 在 5.7 节 介绍 执行 计划 原理 时 会 给 出 详细 的 讲解 ， 这 里 主要 从 占用 内 存 方面 简单 介绍 。 


(1) HashAggregate 


对 于 Hash 聚 合 来 说 ， 数 据 库 会 根据 Group By 字段 后 面 的 值 计 算 Hash 值 ， 并 根据 前 面 使 用 的 聚合 函数 在 内 存 中 维护 对 应 的 列表 ， 然 后 数据 库 会 通过 这 个 列表 来 实现 聚合 操作 ， 效 率 相对 较 高 。 
(2) GroupAggregate 


对 于 普通 聚合 函数 ， 使 用 Group 聚合 ， 其 原理 是 先 将 表 中 的 数据 按照 Group By 的 字段 排序 ， 这 样 同 一 个 Group By 的 值 就 在 一 起 ， 只 需要 对 排 好 序 的 数据 进行 一 次 全 扫 摘 就 可 以 得 到 聚合 的 结果 了 。 


5.3.4 关联 


Greenplum 中 的 关联 的 实现 比较 多 ， 有 Hash Join, NestLoop, Merge Join， 实 现 方式 跟 普 通 的 PostgreSQL 数 据 库 方 式 一 样 。 由 于 Greenplum 是 分 布 式 的 ， 所 以 关联 可 能 会 涉及 表 的 广播 或 重 分 布 ， 


这 个 在 5.7.3 中 有 详细 的 讲解 。 下 面 通过 实际 的 执行 计划 来 分 析 这 3 种 关联 在 Greenplum 上 的 简单 实现 ， 首 先 建 立 两 张 表 以 方便 我 们 查看 后 面 的 执行 计划 : 


本 木 
ABE, 


testDB-4 create table testl (id int,values varchar(256)) distributed by (id); 


testDB-4 create table test2 (id int,values varchar(256)) distributed by (id); 


1.Hash Join 


Hash Join (Hash 关 联 ) 是 一 种 很 高 效 的 关联 方式 ， 简 单 地 说 ， 其 实现 原理 就 是 将 一 张 天 联 表 按 照 关 联 键 在 内 人 存 中 建立 哈 希 表 ， 在 关联 的 时 候 通过 哈 希 的 方式 来 处 理 。 学 过 数据 结构 的 读者 应 该 都 清 
台 希 表 是 一 种 非常 高 效 的 数据 结构 。 


下 面 是 一 个 Hash Join 的 例子 : 


testDB-4 explain select * from testl a,test2 b where a.id-b.id; 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 


-> Hash Join  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
Hash Cond: a.id = b.id 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l width=150) 
-> Hash  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 
-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.00 rows=1 width=15 


(6 rows) 


2.Hash Left Join 


通过 Hash Join 的 方式 来 实现 左 连接 ， 在 执行 计划 中 的 体现 就 是 Hash Left Join: 


testDB-4 explain select * from testl a left join test2 b on a.id-b.id; 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
-> Hash Left Join  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 

Hash Cond: a.id = b.id 

-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 

-> Hash  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 

-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.00 rows-1 width=15 


(6 rows) 


3.NestedLoop 


NestedLoop 关 联 是 最 简单 ， 也 是 最 低 效 的 关联 方式 ， 但 是 在 有 些 情况 下 ， 不 得 不 使 用 NestedLoop， 例 如 笛 卡 儿 积 : 


testDB-4 explain select * from testl ,test2; 
QUERY PLAN 
Gather Motion 6:1  (slice2)  (cost-0.08http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.20 rows-3 width=300) 


-> Nested Loop  (cost-0.08http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.20 rows-3 width=300) 
-> Seq Scan on testl  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l width=150) 
-» Materialize  (cost-0.08http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.14 rows-6 width-150) 
-> Broadcast Motion 6:6  (slicel)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.07 rows 
-> Seq Scan on test2  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l widt 
Settings: enable seqscan-off 
(7 rows) 


由 于 是 笛 卡 儿 积 ， 因 此 SQL 一 定 是 采取 Nestedloop 关 联 。 在 Grenplum 中 ， 如 果 采 取 Nestedloop， 关 联 的 两 张 表 中 有 一 张 表 必须 广播 ， 否 则 无 法 关联 ， 一 般 是 数据 量 比较 小 的 表 会 广播 。 
4.Merge Join 和 Merge Left Join 
Merge Join 也 是 两 表 关 联 中 比较 常见 的 关联 方式 ， 这 种 关联 方式 需要 将 两 张 表 按 照 关 联 键 进行 排序 ， 然 后 按照 归并 排序 的 方式 将 数据 进行 关联 ， 效 率 比 Hash Join 差 。 


下 面 的 例子 先 通过 设置 两 个 参数 来 强制 执行 计划 ， 采 取 的 是 Merge Join 方 式 : 


testDB=# set enable hashjoin -off; 
SET 
testDB-$ set enable mergejoin -on; 
SET 


testDB-4 explain select * from testl a join test2 b on a.id-b.id; 
OUERY PLAN 


Gather Motion 6:1  (slicel)  (cost-0.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
-> Merge Join  (cost-0.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
Merge Cond: a.id = b.id 
-> Sort  (cost-0.0lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
Sort Key: a.id 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=15 
-> Sort  (cost-0.0lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
Sort Key: b.id 
-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.00 rows=1 width=15 
Settings: enable hashjoin-off; enable mergejoin-on; enable seqscan-off 
(10 rows) 


伴随 Merge Join 的 肯定 是 两 张 表 关联 键 的 排序 。 
5.Merge Full Join 


如 果 关 联 使 用 的 是 full outer join ， 则 执行 计划 使 用 的 就 是 Merge Full Join。 在 Greenplum 中 其 他 的 关联 方式 都 无 法 进行 全 关联 。 


testDB-4 explain select * from testl a full outer join test2 b on a.id-b.id; 
OUERY PLAN 


Gather Motion 6:1  (slicel)  (cost-0.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
-> Merge Full Join  (cost-0.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
Merge Cond: a.id = b.id 
-> Sort  (cost-0.01lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
Sort Key: a.id 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=15 
-> Sort  (cost-0.01lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
Sort Key: b.id 
-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=15 
Settings: enable seqscan-off 
(10 rows) 


Qum 在 Oracle 10g? , a full outer join b 的 实现 方式 是 对 a 和 b 做 一 个 左 外 连接 ， 然 后 对 b 和 a 做 一 个 反 连 接 (在 关联 时 ， 匹 配 的 剔除 ， 不 匹配 的 保留 ) ， 再 对 两 个 结果 直接 进行 union al 操作 。 但 是 在 
Greenplum 中 没有 执行 这 个 优化 ， 所 以 只 能 采取 Merge Join。Nestloop 只 能 用 于 内 连接 ， 对 外 连接 无 能 为 力 。 


6.Hash EXISTS Join 


关联 子 查询 exist 之 类 的 SQL 会 被 改写 成 inner join， 如 果 SQL 被 改写 了 ， 则 会 出 现 Hash EXISTS Join, 


testDB-4 explain select * from testl a where exists(select 1 from test2 b where a.id-b.id); 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.05 rows-3 width=150) 


-> Hash EXISTS Join  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=150) 
Hash Cond: a.id = b.id 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 
-> Hash  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l width-4) 
-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l width-4) 


(6 rows) 


5.3.5 SQL 消耗 


在 每 个 SQL 的 执行 计划 中 ， 每 一 步 都 会 有 (cost-0.01http://www.hzcourse.com/resource/readBook?path z/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows=3 
width=150) 这 3 项 表示 SQL 的 消耗 ， 后 面 会 介绍 消耗 具体 的 计算 方法 ， 这 里 先 介绍 这 3 个 字段 的 含义 。 


(1) Cost 
以 数据 库 自 定 义 的 消耗 单位 ， 通 过 统计 信息 来 估计 SQL 的 消耗 。 具 体 消 耗 的 单位 可 以 参考 PostgreSQL 的 官方 文档 : http://www.pgsqldb.org/pgsqldoc-8.1c/runtime-config-query.html 
(2) Rows 


根据 统计 信息 估计 SQL 返回 结果 集 的 行 数 。 


(3) Width 
返回 结果 集 每 一 行 的 长 度 ， 这 个 长 度 值 是 根据 pg_statistic 表 中 的 统计 信息 来 计算 的 。 


5.3.6 ”其 他 术语 
这 里 列举 一 些 执行 计划 中 常见 的 关键 术语 。 
(1) Filter 过 渡 


Where 条 件 中 的 往 选 条 件 ， 在 执行 计划 中 就 是 Filter 关 键 字 。 


Filter: relfilenode = 1249::oid 


(2) Index Cond 


如 果 在 查询 的 表 中 where 筛 选 的 字段 中 有 索引 ， 那 么 执行 计划 会 通过 索引 定位 ， 提 高 查询 的 效率 。Index Cond 就 是 定位 索引 的 条 件 。 


Index Scan using pg class oid index on pg class (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..200.27 rows=1 
Index Cond: oid = 1259::oid 


(3) Recheck Cond 


在 使 用 位 图 扫描 索引 的 时 候 ， 由 于 PostgreSQL 里 面 使 用 的 是 MVCC 协 议 ， 为 了 保证 结果 的 正确 性 ， 要 重新 检查 一 下 过 滤 条 件 。 


-> Bitmap Heap Scan on testl  (cost-100.37http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..103.48 rows=7 width-12) 
Recheck Cond: a >= 1 AND a <= 50 
-> Bitmap Index Scan on idx testl  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..100.37 rows=7 v 
Index Cond: a >= 1 AND a <= 50 


(4) Hash Cond 


执行 Hash join 的 时 候 的 关联 条 件 : 


-> Hash Join  (cost-40.87http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..119.60 rows-1683 width=24) 
Hash Cond: y.b = x.a 


(5) Merge 


在 执行 排序 操作 时 数据 会 在 子 节点 上 各 自 排 好 序 ， 然 后 在 Master 上 做 一 个 归并 操作 。 


Gather Motion 6:1 (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..0.02 rows=1 width=150) 
Merge Key: id 
-> Sort  (cost-0.0lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 


(6) Hash Key 


在 数据 重 分 布 时 候 指定 的 重 算 hash 值 的 分 布 键 : 


-> Redistribute Motion 6:6  (slicel) (cost=0.00http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..53.49 rows=1683 widt 
Hash Key: y.b 


-> Seq Scan on test2 y (cost=0.00nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..19.83 rows-1683 width-12) 


(7) Materialize 


将 数据 保存 在 内 存 中 ， 避 免 多 次 扫描 磁盘 带 来 的 开销 。 这 个 要 重点 注意 ， 由 于 将 数据 保存 在 内 存 中 ， 会 占用 很 大 的 内 存 ， 而 执行 计划 是 按照 统计 信息 来 计算 的 ， 如 果 统 计 信 息 丢 失 或 者 错误 ， 有 可 能 会 
将 一 张 很 大 的 表 保 存在 内 存 中 ， 直 接 导致 内 存 空 间 不 足 ， 进 而 导致 SQL 执行 失败 : 
-> Materialize  (cost-147.74http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..248.72 rows-10098 width-12) 


-> Broadcast Motion 6:6  (slicel) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..137.64 rows-10098 w 
-> Seq Scan on test2 y  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..19.83 rows-1683 width-12) 


(8) Join Filter 


对 数据 关联 后 再 进行 筛选 ， 如 : 


-> Nested Loop  (cost-147.74http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..467528.25 rows-314721 width-24) 
Join Filter: x.a < y.a AND x.a > (y.a + 1) 


(9) Sort, Sort key 


如 果 执 行 计划 中 出 现 了 Sort 关 键 字 ， 则 说 明 有 排序 的 操作 ， 排 序 的 字段 为 Sort Key. 


-> Sort (cost=0.01lhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
Sort Key: id 
-> Seq Scan on testl  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-l width=150) 


(10) Window, Partition By, Order by 


JU RSBFBTTESERZA (Window Function) Bj, HTI REA T EFI WTERSRBJENIR : 


testDB-4 explain select * from ( select row number() over (partition by id order by values) rn from testl) t where rn-1 ; 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.03 rows-l width-8) 
-> Subquery Scan t  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.03 rows-1 width-8) 
Filter: rn = ] 
-> Window  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.02 rows-1 width=150) 
Partition By: id E 
Order By: "values" 
-> Sort (cost=0.01http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows=1 width=150) 
Sort Key: id, "values" 
-> Seq Scan on testl  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 widt 
Settings: enable seqscan-off 
(10 rows) 


(11) Limit 


当 在 SQL 中 只 取 前 几 行 的 时 候 ， 就 使 用 Limit 语 句 。 


Limit  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.85 rows-1 width=205) 


(12) Append 


将 结果 直接 汇总 起 来 : 


-> Append  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2.02 rows=1 width-13998) 
->  Append-only Scan on offer 1 prt p20100801 offer 
->  Append-only Scan on offer 1 prt p20100802 offer 
->  Append-only Scan on offer 1 prt p20100803 offer 


5.4 数据库 统计 信息 收集 
Greenplum 与 Oracle 等 数据 库 一 样 ， 都 是 根据 CBO 优 化 器 来 选择 一 个 好 的 执行 计划 的 ， 尤 其 是 在 识别 广播 或 者 重 分 布 的 时 候 ， 统 计 信息 十 分 重要 ， 其 准确 与 否 直接 决定 了 执行 计划 的 好 坏 。 
5.4.1 Analyze 分 析 


统计 信息 的 命令 如 下 : 


ANALYZE [ VERBOSE ] [ table [ (column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/...] ) ] ] 


如 果 没 有 参数 ，ANALYZE 检 查 当 前 数据 库 中 所 有 表 。 如 果 有 参数 ，ANALYZE 只 检查 参数 指定 的 那个 表 。 还 可 以 给 出 一 列 字段 名 字 ， 这 个 时 候 只 收集 给 出 的 字段 的 统计 信息 。 


ANALYZE 收 集 表 内 容 的 统计 信息 ， 表 级 别 的 信息 ( 表 的 数据 量 及 表 大 小 ) 保存 在 pg_class 中 的 reltuples 和 relpages 字 段 中 ， 然 后 把 字段 级 别 的 结果 保存 在 系统 表 pg_statistic 中 ， 字 段 级 信息 通常 包括 
每 个 字段 最 常用 数值 的 列表 以 及 显示 每 个 字段 中 数据 近似 分 布 的 包 线 图 。 (这 些 内 容 详 见 第 4 章 。 ) 


对 于 大 表 ，ANALYZE 采 集 表 内 容 的 一 个 随机 抽样 进行 统计 ， 而 不 是 检查 每 一 行 ， 这 样 就 保证 了 即使 是 在 很 大 的 表 上 也 只 需要 很 少时 间 就 可 以 完成 分 析 。 不 过 ， 要 注意 的 是 ， 统 计 只 是 近似 的 结果 ， 而 且 
每 次 运行 ANALYZE 都 会 导致 EXPLAIN 显 示 的 规划 器 的 预期 开销 有 一 些小 变化 ， 即 使 表 内 容 实际 上 没有 改变 。 


在 Greenplum 中 会 对 表 自 动 进行 统计 信息 收集 。 控 制 自动 收集 的 参数 是 gp_autostats mode， 这 个 参数 有 三 个 值 : none, on change, on no stats。 这 三 个 参数 值 的 含义 如 表 5-1 所 示 。 


表 5-1 gp_autostats_mode 的 参数 值 解释 


参数 什 "o F 
none 不 目 动 收集 统计 信息 
on change A He uto NH (gp autostats on change threshold) 时 收集 统计 信息 。gp_ 


autostats on change threshold 这 个 值 控制 数据 变化 的 行 数 


on no stats 当 使 用 create table as select, insert, copy 时 ， 如 采 在 目标 表 中 没有 收集 过 统计 信息 ， 那 么 
Greenplum 就 会 使 用 Analyze 收集 统计 信息 
这 个 参数 在 Master 上 修改 ， 然 后 通过 gpstop-u 重 新 加 载 postgresql.conf 这 个 配置 文件 即 可 。 


Greenplum 默 认 使 用 on_no_stats。 使 用 这 个 参数 ， 对 数据 库 的 消耗 比较 小 ， 但 是 对 于 不 断 变更 的 表 ， 数 据 库 在 第 一 次 收集 统计 信息 之 后 就 不 会 再 收集 了 ， 对 于 这 种 表 ， 需 要 DBA 定 时 手工 运行 Analyze 
收集 统计 信息 。 


Qu 在 Greenplum 3.2.4 版 本 中 ， 收 集 统计 信息 很 慢 ， 因 为 是 对 表 进 行 全 表 扫 描 而 不 是 进行 数据 采样 ， 消 耗 比 较 大 。 在 3.3.x 版 本 之 后 ， 对 统计 信息 收集 进行 了 优化 ， 只 对 表 进 行 抽样 分 析 ， 速 度 快 了 
很 多 。 在 4.x 版 本 中 ，Grtreenplum 在 收集 统计 信息 的 时 候 建立 临时 表 进 行 分 析 ， 临 时 表 都 是 通过 tandom 函 数 抽取 其 中 一 定 的 百分比 数据 来 进行 分 析 的 。 


5.4.2 固定 执行 计划 


通过 上 面 的 介绍 ， 我 们 知道 Greenplum 是 通过 统计 信息 来 生成 执行 计划 的 。 如 果 发 现 数据 库 有 一 个 表 的 统计 信息 收集 不 完整 ， 导 致 执行 计划 出 错 ， 我 们 可 以 通过 重新 收集 统计 信息 来 解决 ， 如 果 无 法 解 


决 ， 则 可 以 修改 数据 字典 中 的 统计 信息 来 达到 固化 执行 计划 的 目的 。 
一 般 对 执行 计划 影响 最 大 的 是 pg_class 的 relpages 和 reltuples 这 两 个 字段 ，reltuples 是 表 的 数据 量 ， 而 relpages 则 表示 表 大 小 除 以 32k， 即 : 
select pg relation size (tablename) /32/1024; 
比方 说 ,将 一 个 表 的 数据 量变 成 原来 的 10 倍 ， 可 以 看 出 cost 限 查询 出 来 的 行 数 都 翻 了 10 倍 ， 如 下 : 
testDB-4 explain select * from test01; 
QUERY PLAN 
Gather Motion 6:1  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..340.28 rows-4188 
-> Append-only Scan on test01  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..340.28 rows-4188 width-1C 
(2 rows) 
testDB=# update pg class set reltuples-reltuples*10,relpages-relpages*10 where relname-'testO01'; 
UPDATE 1 
testDB-4 explain select * from test01; 
QUERY PLAN 
Gather Motion 6:1  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..3402.80 rows-418€ 
-> Append-only Scan on test01  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..3402.80 rows-41880 width= 
(2 rows) 
全 注意 Geenplum 4.2 之 后 的 版 本 ， 不 允许 对 数据 字典 进行 修改 操作 ， 在 上 述 操作 中 ， 直 接 更 新 pg_class 表 只 能 在 较 早 的 Greenplum 版 本 中 进行 ，Greenplum 4.2 之 后 的 版 本 只 能 通过 analyze 命 令 重新 收集 
统计 信息 。 


在 Greenplum 4.3 中 ， 报 如 下 错误 : 


ERROR: permission denied: "pg class" is a system catalog 


5.5 ”控制 执行 计划 的 参数 人 
在 Oracle 中 ， 我 们 可 以 只 用 Hint 控 制 更 改 SQL 的 执行 计划 。 在 Greenplum 中 ， 也 提供 了 类 似 的 方法 ， 但 是 比较 简单 。 与 Oracle 的 Hint 不 同 ， 在 Greenplum 中 ， 控 制 执行 计划 的 参数 是 在 会 话 级 别 ， 对 于 
同一 会 话 中 的 所 有 SQL 生效 ， 前 面 介绍 执行 计划 的 时 候 已 经 使 用 过 了 。 


这 些 配置 参数 提供 了 影响 查询 优化 器 选择 查询 规划 的 原始 方法 。 如 果 优化 器 为 特定 的 查询 选择 的 默认 规划 并 不 是 最 优 ， 那 么 我 们 就 可 以 通过 使 用 这 些 配置 参数 强制 优化 器 选择 一 个 更 好 的 规划 来 临时 解 
决 这 个 问题 。 这 些 参数 一 般 是 在 某 个 会 话 级 别 对 某 个 SQL 进行 设置 的 ， 不 建议 在 全 局 中 修改 ， 会 影响 其 他 正常 SQL 的 执行 计划 。 


表 5-2 控制 执行 计划 的 参数 列表 


2e Tr SA f 
enable bitmapscan 丁 开 或 者 关闭 规划 天 对 位 图 扫 摘 规划 类 型 的 使 用 on 
enable hashagg 打开 或 者 关闭 规划 天 对 Hash 聚集 规划 类 型 的 使 用 on 
enable hashjoin 打开 或 者 关闭 规划 需 对 Hash 连接 规划 类 型 的 使 用 on 
enable indexscan FRR OSBDSIUXI go I HARRE F1 fd: Hj on 


enable mergejoin J 开 或 者 关闭 规划 需 对 融合 连接 规划 类 型 的 使 用 off 


5 X E. 介绍 SUA B 
enable nestloop TIT sor ORBE] E x ih í aes AJ 2S EHI. RIIA n Tf C ATH DR off 
SIRER, [Hiàjü3x T Bd XC XII S8 TE GE TE B7; RSS o DC CX TE 
其 他 方法 
enable seqscan 3T 开 或 者 关 shj MR sioe] LEY 4-108 9 X] 25 783 HEH RIJA T Be oe TH BRUT 1 on 


但 是 把 这 个 变量 关闭 会 让 规划 融 在 存在 其 他 方法 的 时 候 优先 选 择 其 他 方法 
enable sort TJ E sx OS B XL a [ds H] HH O8 E EE ZEE. RIJA HI BE oC AR TH Djs 8 EJ ETT, on 
但 是 把 这 个 变量 关闭 可 以 让 规划 各 在 存在 其 他 方法 的 时 候 优 先 选 择 其 他 方法 
enable tidscan 打开 或 者 关闭 规划 需 对 TID 扫描 规划 类 型 的 使 用 on 


以 上 这 些 参 数 都 是 session 级 别 的 ， 只 要 在 SQL 运 行 前 设置 一 下 就 可 以 了 ， 如 果 需 要 全 局 修改 ， 只 要 在 Master 上 改 就 可 以 了 ， 然 后 执行 9gpstop-u 重 新 加 载 配 置 文 件 即 可 生效 ， 无 需 重启 。 


——- 


5.6 ”规划 器 开销 的 计算 方法 


在 选择 合理 的 执行 计划 的 时 候 ，Greenplum 会 遍历 所 有 的 执行 计划 ， 计 算 其 开销 ， 即 Cost 值 ， 并 选择 最 小 的 执行 路 径 执 行 SQL。 这 里 所 描述 的 开销 可 以 按照 任意 标准 度量 。 我 们 只 关心 其 相对 值 ， 因 此 
以 相同 的 系数 缩放 它们 将 不 会 对 规划 器 产生 任何 影响 。 一 般 ，Greenplum/ bud emo EU 也 就 是 说 将 seq_page_cost 设 为 1.0， 同 时 其 他 开销 参数 对 照 它 来 设置 。 当 然 也 可 
以 使 用 其 他 基准 ， 比 如 以 毫秒 计 的 实际 执行 时 间 。 表 5-3 是 Greenplum 中 衡量 数据 库 消 耗 的 各 个 变量 及 默认 参数 。 


Qum 现在 还 没有 定义 得 很 合理 的 方法 用 于 判断 下 面 出 现 的 “开销 ”变量 族 的 理想 数值 。 如 表 5-3 所 示 ， 每 个 变量 的 数值 最 好 按照 某 个 特定 安装 的 平均 查询 开销 来 衡量 。 这 意味 着 仅仅 根据 很 少量 的 
试验 结果 来 修改 它们 是 很 危险 的 。 


表 5-3 各 种 数据 库 消 耗 的 各 个 变量 


5 m 说 HH 默认 仁 


seq page cost 计算 一 次 顺序 磁盘 页 面 抓 取 的 开销 l 
random page cost 计算 一 次 非 顺 序 磁 盘 页 面 抓 取 的 天 100 
cpu tuple cost 计算 在 一 次 查询 中 处 理 prm VT 0.01 
cpu index tuple cost 计算 在 一 次 索引 扫描 中 处 理 每 条 索引 行 的 开销 0.005 


cpu operator cost 计算 在 一 次 查询 中 执行 一 个 操作 符 或 田 数 的 开销 0.0025 

gp motion cost per row 计算 数据 在 motion 操作 中 将 一 行 数 据 从 一 个 Segment 传送 到 另外 一 个 | 0 
WARF "fO, MARFAN ss 的 两 售 

effective cache size 为 规划 带 设置 在 一 次 索引 扫描 中 可 用 的 磁盘 缓冲 区 的 有 效 大 小 512MB 


WuJwandom page costí& (相对 于 seq_page_cost) 将 导致 更 倾向 于 使 用 索引 扫描 ， 而 增加 这 个 值 将 导致 更 倾向 于 使 用 顺序 扫描 。 可 以 通过 同时 增加 或 减少 这 两 个 值 来 调整 磁盘 /O 相 对 于 CPU 的 开 
销 。 

下 面 将 使 用 几 个 例子 来 介绍 如 何 计算 执行 计划 的 开销 。 在 阅读 这 一 节 的 时 候 ， 建 议 先 阅读 PostgreSQL 文 档 的 13.1 节 (使 用 EXPLAIN) 。 这 里 直接 介绍 Greenplum 的 cost 值 计算 。 以 下 面 这 个 表 关 联 
(MB 表 的 分 布 键 均 为 字段 id) 为 例 进行 介绍 


两 个 表 的 建 表 语句 如 下 : 


B=# create table A as select id,id+1 as id2 from generate series (1,59000)id distributed by (id); 
T 59000 
tDB-4 create table B as select id,id41 as id2 from generate series(1,10000)id distributed by (id); 
ECT 10000 


日 @ 唱 


查看 两 表 进 行内 连接 的 执行 计划 : 


testDB-4 explain select * from A,B where A.id-B.id2; 
QUERY PLAN 


Gather Motion 6:1  (slice2; segments: 6)  (cost-437.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..1365.50 rows-1€ 
width-16) 
-> Hash Join  (cost-437.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1365.50 rows-1667 width-16) 


Hash Cond: a.id = b.id2 
-> Seq Scan on a  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..656.00 rows=9834 width-8) 
-> Hash  (cost-312.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..312.00 rows=1667 width=8) 

-> Redistribute Motion 6:6 (slicel; segments: 6) 

(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..312.00 rows-1667 width-8) 


Hash Key: b.id2 
-> Seq Scan on b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..112.00 rows-1667 wi 


(8 rows) 


执行 计划 以 统计 信息 的 内 容 为 准 ， 这 里 先 了 解 这 两 张 表 的 统计 信息 


testDB-4 select relname,relpages,reltuples from pg class where relname in ('a','b'); 
relname | relpages | reltuples 


接 下 来 看 看 每 个 cost 值 是 如 何 计算 得 到 的 : 


-> Seq Scan on b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..112.00 rows-1667 width-8) 


表 B 有 12 个 数据 页 ，10000 行 数据 ， 那 么 cost 中 112 单 位 消耗 的 计算 方法 如 下 : 


12*seq page cost+10000*cpu tuple cost=12+100=112 


-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..312.00 r 


这 里 是 数据 重 分 布 ， 总 共有 10000 行 数据 需要 重 分 布 ， 代 价 为 : 
10000*gp motion cost per row=10000*2xcpu tuple cost=200 
加 上 前 面 顺序 扫描 的 112， 总 消耗 就 是 312。 

对 表 B 重 分 布 之 后 ， 就 是 顺序 扫描 表 A: 


-> Seq Scan on a (cost=0.00http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..656.00 rows-9834 width-8) 


顺序 扫描 表 人 A 使 用 同样 的 计算 方法 ， 结 果 是 656。 


使 用 Hash Join 将 两 表 关 联 起 来 : 


-> Hash Join (cost=437.00http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..1365.50 rows=1667 width-16) 


在 开始 进行 关联 的 时 候 ， 表 B 要 先 保存 在 内 存 的 Hash 表 中 ， 所 以 437 的 cost 中 包括 了 计算 Hash 值 的 312 的 cost， 加 上 了 Hash 关 联 的 其 他 cost， 开 始 返 回 第 一 条 数据 的 消耗 是 437。 


实际 消耗 在 关联 上 的 cost 是 1365.5-437-656=272.5。 


5.7 ”各 种 执行 计划 原理 分 析 


5.7.1 详解 天 联 的 广播 与 重 分 布 
当 两 张 表 关联 的 时 候 ， 如 果 有 一 张 表 关联 键 不 是 分 布 键 ， 那 么 就 会 发 生 表 的 广播 或 者 重 分 布 ， 将 数据 移动 到 一 个 节点 上 进行 关联 ， 从 而 获得 数据 。 这 里 将 详细 介绍 什么 时 候 用 广播 ， 什 么 时 候 用 重 分 
布 。 
分 布 式 的 关联 有 两 种 : 
* 单 库 关联 。 关 联 键 与 分 布 键 一 致 ， 只 需要 在 单个 库 关联 后 得 到 结果 即 可 。 
* 跨 库 关联 。 关 联 键 与 分 布 键 不 一 致 ， 数 据 需要 重新 分 布 ， 转 换 成 单 库 关联 ， 从 而 实现 表 的 关联 。 
采用 广播 或 者 重 分 布 首先 必须 保证 结果 的 准确 性 ， 其 次 才 考虑 性 能 方面 。 下 面 将 从 内 连接 、 左 连接 、 全 连接 三 种 情况 进行 分 析 : 


下 面 分 析 SQL 是 通过 表 5-4 中 的 两 个 表 来 进行 的 。 


表 5-4 测试 表 A 和 B 的 定义 


表 名 分 布 键 数据 量 
A M 
N 


1. 内 连接 

情况 1: select*from A, B where A.id-b.id; 

分 布 键 与 关联 键 相同 ， 属 于 单 库 关联 ， 不 会 造成 广播 或 者 重 分 布 。 

情况 2: select*from A, B where A.id=B.id2; 

表 A 的 天 联 键 是 分 布 键 ， 表 B 的 关联 键 不 是 分 布 键 ， 那 么 可 以 通过 两 种 方法 来 实现 表 的 关联 。 
- 将 表 也 按照 id2 字 段 将 数据 重 分 布 到 每 一 个 节点 上 ， 然 后 再 与 表 A 进 行 关联 。 重 分 布 的 数据 量 是 N。 
将 表 A 广 播 ， 每 一 个 节点 都 放 一 份 全 量 数据 ， 然 后 再 与 表 也 关联 得 到 结果 。 广 播 的 数据 量 是 MX 节点 数 。 

所 以 当 N>Mx 节 点 数 的 时 候 ， 选 择 表 A 广 播 ， 否 则 选择 表 B 重 分 布 。 

下 面 来 看 实际 的 例子 。 


M=10000，N=50000， 节 点 数 =6: 


BPS/Text/..2088.60 rows-2222 


teach ebook/uncompressed/14936/0 


c1 


—BPS/Text/. 


I 


BPS/Text/..560.00 rows-8334 width-8) 
t/..112.00 rows-1667 width-8) 


BPS/Text/..112.00 rows-1667 width-8) 


testDB-4 explain select * from A,B where A.id-B.id2; 
OUERY PLAN 
Gather Motion 6:1 (slice2; segments: 6) (cost-237.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 
-> Hash Join  (cost-237.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2088.60 rows-2222 width-16) 
Hash Cond: b.id2 = a.id 
-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/! 
Hash Key: b.id2 
-> Seq Scan on b  (cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0Fi 
-> Hash  (cost-112.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Texi 
-> Seq Scan on a  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EFi 
(8 rows) 


M=10000，N=60100， 节 点 数 =6: 


testDB-4 explain select * from A,B where A.id-B.id2; 
OUERY PLAN 
Gather Motion 6:1 (slice2; segments: 6) 
-> Hash Join  (cost-1422.25http://www.hzcourse.com/resource/readl 
Hash Cond: a.id = b.id2 
-> Broadcast Motion 6:6 (slicel; segments: 6) 
-> Seq Scan on a  (cost-0.00http: //www.hzcourse.com/resource/readl 
-> Hash  (cost-671.00http://www.hzcourse.com/resource/readi 
-> Seq Scan on b  (cost-0.00http: //www.hzcourse.com/resource/readl 
(7 rows) 


情况 3: select*from A, B where A.id2- b.id2; 


(cost-1422.25http: / /www.hzcourse.com/resource/readi 


Book?path-/openresources/teach ebook/ 


(cost-0.00http: //www.hzcourse.com/resource/readi 


uncompressed/14936/0E 


Book?path-/openresources/teach ebook/uncompressed/14936/0E 
BPS/Text/..2830.61 rows-2976 width-16) 


Book?path-/openresources/teach ebook/uncompressed/14936/0! 


Book?path-/openresources/teach ebook/ 


对 于 这 种 情况 ， 两 个 表 的 关联 键 及 分 布 键 都 不 一 样 ， 那 么 还 有 两 种 做 法 : 


.将 表 A 与 表 B 都 按照 id2 字 段 ， 将 数据 重 分 布 到 每 个 节点 ， 重 分 布 的 代价 是 M+N。 


. 将 其 中 一 张 表 广播 后 再 关联 ， 当 然 选 取 小 表 广播 ， 代 价 小 ， 广 播 的 代价 是 min (M, N) X 节 点 数 。 


所 以 当 N+M>min (M, N) x 节 点 数 的 时 候 ， 选 择 小 表 广 播 ， 否 则 选择 两 个 表 都 重 分 布 。 


M=10000，N=50000， 节 点 数 =6， 两 个 表 都 重 分 布 : 


Book?path-/openresources/ 


31 


uncompressed/14936/0E 


Book?path-/openresources/teach ebook/uncompressed/1 


teach ebook/uncompressed/1 


4936/0Fl 
BPS/Text/..671.00 rows-1001 
4936/0El 


ea 


BPS/Text/..2830.61 rows-297 


T 


—BPS/Text/..81 


I 


BPS/Text/..112.00 rows-1667 width-8) 
7 width-8) 
BPS/Text/..671.00 rows-10017 width-8) 


testDB-4 explain select * from A,B where A.id2-B.id2; 
QUERY PLAN 
Gather Motion 6:1 (slice3; segments: 6) (cost-437.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2247.00 rows-1667 
-> Hash Join  (cost-437.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2247.00 rows-1667 width-16) 
Hash Cond: b.id2 = a.id2 
-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/. 
Hash Key: b.id2 
-> Seq Scan on b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..560.00 rows-8334 width-8) 
-> Hash  (cost-312.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..312.00 rows-1667 width-8) 
-> Redistribute Motion 6:6  (slice2; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/ 
Hash Key: a.id2 
-> Seq Scan on a  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..112.00 rows-1667 wic 
(10 rows) 


M=10000，N=50100， 节 点 数 =6， 将 表 A 广 播 : 


testDB-4 explain select * from A,B where A.id2-B.id2; 
OUERY PLAN 
Gather Motion 6:1 (slice2; segments: 6) 
-> Hash Join  (cost-1187.25http://www.hzcourse.com/resource/readl 
Hash Cond: a.id2 = b.ia2 
-> Broadcast Motion 6:6  (slicel; segments: 6) 
-> Seq Scan on a  (cost-0.00ht 
-> Hash  (cost-561.00http://www.hzcourse.com/resource/readl 
-> Seq Scan on b  (cost-0.00ht 
(7 rows) 
2. 左 连接 


情况 1: select*from A left join B on A.id=B.id; 


单 库 关 联 ， 不 涉及 数据 跨 库 关 联 。 


情况 2: select*from A left join B on A.id- B.id2; 


(cost-1187.25http: //www.hzcourse.com/resource/readi 


Book?path-/openresources/teach ebook/ 


uncompressed/14936/0E 


Book?path-/openresources/teach ebook/uncompressed/14936/0E 
BPS/Text/..2400.02 rows=] 


-— 


BPS/Text/..2400.02 rows-167/ 
672 width-160) 


(cost-0.00http: //www.hzcourse.com/resource/readi 
tp://www.hzcourse.com/resource/readBook?path-/openresources 


Book?path-/openresources/teach ebook/ 


tp: //www.hzcourse.com/resource/readBook?path-/openresources 


/ 
uncompressed/14936/0E 


由 于 左 表 的 分 布 键 是 关联 键 ， 鉴 于 左 连接 的 性 质 ， 无 论 表 B 数 据 量 多 大 ， 都 必须 将 表 B 按 照 字 段 id2 重 分 布 数据 。 


情况 3: select*from A left join B on A.id2=B.id; 


左 表 的 关联 键 不 是 分 布 键 ， 由 于 左 连接 A 表 肯 


- 将 表 A 按 照 id2 重 分 布 数据 ， 转 换 成 情况 A， 代 价 为 M。 


HRB, 代价 为 NX 节点 数 。 


M=60100，N=10000， 节 点 数 =6， 将 表 B 广 播 : 


testDB-4 explain select * from A left join 
OUERY PLAN 
Gather Motion 6:1 (slice2; segments: 6) (cos! 


-> Hash Left Join 
Hash Cond: a.id2 


-> Seq Scan on a 
(cost-812.00ht! 
Broadcast Motion 6:6 
(cost-0.00http: //www.hzcourse.com/resource/readi 
-> Seq Scan on b 


-> Hash 
一 > 


(7 rows) 


= b.id 


(slicel; 


(cost-1562.00http: //www.hzcourse.com/resource/readi 


(cost-0.00http: //www.hzcourse.com/resource/readi 
ttp://www.hzcourse.com/resource/readl 
segments: 
Book?path-/openresources/teach ebook/uncompressed/14936/0E 


M=59000，N=10000， 节 点 数 =6， 将 表 A 广 播 : 


定 是 不 能 被 广播 的 ， 所 以 有 两 种 方式 : 


B on A.id2-B.id; 


Book?path-/openresources/1 


Book?path-/openreso 


teach ebook/uncompressed/14936/0E 


E 


/teach ebook/uncompressed/1 


Book?path-/openresources/teach ebook/ 


6) 


(cost-0.00http: //www.hzcourse.com/resource/readi 


urces/teach ebook/ 


TS 


uncompressed/14936/0E 


uncompressed/14936/0E 


4936/0Fl 
BPS/Text/..5 


Book?path-/openresources/teach ebook/uncompressed/14936/0F 
teach ebook/uncompressed/1 


t-1562.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 


BPS/Text/..] 
61.00 rows-8350 width-8) 
4936/0EBPS/Text/..561.00 rows-8350 width-8) 


E 


—BPS/Text/..81 
12.00 rows-1667 width-8) 


3 


BPS/Text/..3135.25 rows-10C 


BPS/Text/..3135.25 rows-10017 width-16) 


BPS/Text/..812.00 rows-10000 width-8) 
Book?path-/openresources/teach ebook/uncompressed/14936/0l 


I 


€ 


BPS/Text/..112.00 rows-1667 wic 


BPS/Text/..672.00 rows-10017 width-8) 
BPS/Text/..812.00 rows-10000 width-8) 


testDB-4 explain select * 


from A lei 


Ft join 


QUERY PLAN 


B on A.id2-B.id; 


Gather Motion 6:1 (slice2; segments: 6) (cost-237.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2835.50 rows-9834 
-> Hash Left Join  (cost-237.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2835.50 rows-9834 width-16) 

Hash Cond: a.id2 = b.id 

-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/. 

Hash Key: a.id2 

-> Seq Scan on a  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..656.00 rows-9834 width-8) 

-> Hash  (cost-112.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..112.00 rows-1667 width-8) 

-> Seq Scan on b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..112.00 rows-1667 width-8) 


(8 rows) 


情况 4: select*from A left join B on A.id2- B.id2; 

还 是 有 两 种 方式 : 

. 将 表 A 与 表 B 都 按照 id2 字 段 将 数据 重 分 布 一 遍 ， 转 换 成 情况 1。 代 价 是 M+N。 

. 表 A 不 能 被 广播 ， 只 能 将 表 B 广 播 ， 代价 是 N* 节 点 数 。 

对 于 有 多 种 情况 的 ，Greenplum 总 是 聪明 地 选择 代价 小 的 方式 来 执行 SQL。 

3. 全 连接 

情况 1: select*from A full outer join B on A.id=B.id; 

对 于 关联 键 都 是 分 布 键 的 情况 ， 前 面 已 经 讲 到 ， 在 Greenplum 中 全 连接 只 能 采用 Merge Join 来 实现 。 
情况 2: select*from A full outer join B on A.id=B.id2; 

将 不 是 关联 键 不 是 分 布 键 的 表 重 分 布 数据 ， 转 换 成 情况 1 来 解决 。 无 论 A、B 大 小 分 别 为 多 少 ， 为 了 实现 全 连接 ， 不 能 将 表 广 播 ， 只 能 是 重 分 布 。 
情况 3: select*from A full outer join B on A.id2=B.id2; 

将 两 张 表 都 重 分 布 ， 转 换 成 情况 1 进行 处 理 。 


从 前 面 可 以 看 到 ， 理 论 上 Greenplum 选 择 广播 或 者 重 分 布 这 种 方法 是 没有 问题 的 ， 但 是 表 的 大 小 是 怎么 得 到 的 呢 ” 这 就 只 能 根据 统计 信息 来 判断 了 ， 如 果 统 计 信息 出 现 错误 ， 那 么 就 会 导致 执行 计划 出 
着 ，5.8 节 案例 分 析 中 将 会 分 析 统 计 信息 丢失 或 者 不 详细 导致 的 执行 计划 出 错 的 问题 。 


将 表 A 和 表 B 进 行 关联 ， 如 果 其 中 一 个 表 需 要 重 分 布 数据 ， 那 么 重 分 布 的 Hash Key 是 否 一 定 是 关联 键 呢 ? 


不 一 定 ， 看 下 面 的 执行 计划 : 


testDB-4 explain select * from A,B where A.id-B.id2 and A.id-1; 
QUERY PLAN 
Gather Motion 6:1  (slice2; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..940.53 rows-l wic 
-> Nested Loop  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..940.53 rows-l width-16) 
-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/. 
Hash Key: 1 
-> Seq Scan on b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..137.00 rows-1 width-8) 


Filter: 1 - id2 
-> Seq Scan on a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..803.50 rows-1 width-8) 
Filter: id - 1 


(8 rows) 


由 于 关联 的 时 候 ， 表 A 的 分 布 键 上 有 一 个 过 滤 条 件 ， 即 id=1， 表 示 其 实数 据 只 会 在 其 中 一 个 节点 上 有 ， 因 此 只 需要 将 表 B 的 数据 值 全 部 移动 到 这 个 节点 上 就 可 以 完成 关联 。 在 重 分 布 的 时 候 Hash Key 为 
1， 整 个 计算 都 只 在 一 个 节点 上 进行 ， 一 般 数 据 量 比较 小 。 


5.7.2 HashAggregate 与 GroupAggregate 


在 PostgreSQL/Greenplum 数 据 库 中 ， 聚 合 国 数 有 两 种 实现 方式 : HashAggregate 与 GroupAggregate。 


我 们 现在 通过 一 个 最 简单 的 SQL 来 分 析 这 两 种 聚合 的 区 别 及 其 应 用 场景 。 


select count(1) from pg class group by oid; 


1. 两 种 实现 算法 的 比较 
(1) HashAggregate 


对 于 hash 聚 合 来 说， 数据 库 会 根据 Group By 字段 后 面 的 值 算出 hash 值 ， 并 根据 前 面 使 用 的 聚合 函数 在 内 存 中 维护 对 应 的 列表 。 如 果 select 后 面 有 两 个 聚合 函数 ， 那 么 在 内 存 中 就 会 维护 两 个 对 应 的 数 
据 。 同 样 的 ， 有 n 个 聚合 函数 就 会 维护 n 个 同样 的 数组 。 对 于 hash 聚 合 来 说 ， 数 组 的 长 度 肯定 是 大 于 Group By 的 字段 的 distinct 值 的 个 数 的 ， 且 与 这 个 值 应 该 呈 线 性 关系 ，Group By 后 面 的 字段 重复 值 越 少 
使 用 的 内 存 也 就 越 大 。 


执行 计划 如 下 : 


testDB-4 explain select count(1) from pg class group by oid; 
QUERY PLAN 
HashAggregate  (cost-1721.40http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..2020.28 rows-23910 width-4) 
Group By: oid 
-> Seq Scan on pg class  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1004.10 rows-143460 width-4) 
Settings: enable seqscan-on 
(4 rows) 


(2) GroupAggregate 


对 于 普通 聚合 函数 ， 使 用 GroupAggregate， 其 原理 是 先 将 表 中 的 数据 按照 Group By 的 字段 排序 ， 这 样 同一 个 Group By 的 值 就 在 一 起 ， 只 需要 对 排 好 序 的 数据 进行 一 次 全 扫描 ， 并 进行 对 应 的 聚合 函 
数 的 计算 ， 就 可 以 得 到 聚合 的 结果 了 。 


执行 计划 如 下 : 


B=# set enable hashagg = of 


B=# explain select count (1 


from pg class group by oid; 
QUERY PLAN 


GroupAggregate 
Group By: oid 


-> 


Sort  (cost-13291. 
Sort Key: oid 


-> Seq Scan on pg class 
Settings: 


enable hashagg-off 


(cost-13291.66http: //www.hzcourse.com/resource/readl 


66http: / /www.hzcourse.com/resource/readi 


I 


Book?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..14666.48 rows-23910 width-4) 


I 


Book?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..13650.31 rows-143460 width-4) 


I 


(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1004.10 rows-143460 widttk 


(6 rows) 


从 上 面 两 个 执行 计划 的 消耗 来 说 ，GroupAggregate 由 于 需要 排序 ， 效 率 很 差 ， 


2. 两 种 实现 的 内 存 消耗 


先 建 立 一 张 测试 表 ， 并 且 向 里 面 插入 数据 ， 通 过 每 个 字段 的 数据 重复 这 不 一 致 ， 


(1) 


表 结 构 


建立 测试 表 ， 该 表 结 构 如 下 : 


create table test group( 
id integer 
,Coll numeric 
,Col2 numeric 
,Col3 numeric 
,Col4 numeric 
,Ccol5 numeric 
,Col6 numeric 
,Col7 numeric 
,Ccol8 numeric 
,Ccol9 numeric 
,Colll varchar (100) 
,Col12 varchar (100) 
,COll3 varchar (100) 
,COll4 varchar (100) 
) 


)distributed by (id 


(2) 


L4 


插入 数据 


; enable seqscan-on 


通过 random 函 数 ， 实 现 每 个 字段 数据 重复 率 都 不 同 : 
testDB=# insert into test group 

testDB-# select generate series (1,100000), 
testDB-# (random ()*200)::int, 
testDB-# (random() *800) : :int, 
testDB-# (random ()*1600)::int, 
testDB-# (random() *3200) : :int, 
testDB-4 (random ()*6400) : :int, 
testDB-4 (random()*12800)::int, 
testDB-4 (random() *40000) : : int, 
testDB-# (random ()*100000) ::int, 
testDB-# (random ()*1000000) : :int, 
testDB-# 'hello', 

testDB-# 'welcome', 

testDB-4 'haha', 

testDB-14 'chen'; 

NSERT O 100000 


表 大 小 为 : 


testDl 


pg size pretty 


(3) 


B=# select pg size pretty(pg relation size('test group')); 


使 用 explain analyze 来 观察 实际 数据 库 消耗 的 内 存 差异 


以 下 是 根据 底层 单个 节点 来 计算 的 ， 避 免 了 广播 的 时 间 及 内 存 消耗 。 


B=} explain analyze select sum(coll1),sum(col2),sum(col3),sum(col4),sum(col5),sum(col6),sum(col7),sum(col8),sum(col9) 


QUERY PLAN 


295 ms to end, 


OUERY PLAN 


585 ms to end, 


48 ms 


t sum(coll),sum(col2),sum(col3),sum(col4),sum(col5),sum(col6),sum(col7),sum(col8),sum(col9) 


消耗 是 HashAggregate 的 7 倍 。 所 以 在 Greenplum 中 ， 对 于 聚合 函数 的 使 用 ， 采 用 的 都 是 HashAggregate。 


还 有 聚合 函数 的 个 数 来 观察 HashAggregate 与 GroupAggregate 在 内 存 的 消耗 情况 及 实际 的 计算 时 间 的 比较 。 


from test group group by col5; 


I 


(cost-4186.96http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..5432.88 rows-38336 width-62) 


start of 


fset by 0.143 ms. 


to end, 


I 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..1480.56 rows-108256 width-62) 
first row, 


start o 


ffset by 0.218 ms. 


from test group group by col5; 


Book?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..14755.93 rows-38336 width-62) 


I 


start of 


fset by 0.092 ms. 


Book?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..10803.61 rows-108256 width-62) 


I 


HashAggregate: 
testDB-4 explain analyze selec 
HashAggregate 
Group By: col5 
Rows out: 6401 rows with 289 ms to first row, 
Executor memory:  2818K bytes. 
-> Seq Scan on test group  (cost-0.00ht 
Rows out: 100000 rows with 0.023 ms to 
Slice statistics: 
(slice0) Executor memory: 2996K bytes. 
Settings: enable seqscan-off 
Total runtime: 296.283 ms 
(10 rows) 
GroupAggregate: 
testDi 
GroupAggregate  (cost-10532.97http://www.hzcourse.com/resource/readi 
Group By: col5 
Rows out: 6401 rows with 306 ms to first row, 
Executor memory:  8K bytes. 
-> Sort  (cost-10532.9"7http://www.hzcourse.com/resource/readi 
Sort Key: col5 
Rows out: 100000 rows with 306 ms to 


Executor memory: 
Jork mem used: 


Rows out: 


Slice statistics: 


(slice0) Executor memory: 19623K bytes. 
Settings: enable hashagg-of 
Total runtime: 586.114 ms 


19449K bytes. 
19449K byt 
-> Seq Scan on test group 


Ces. 


first row, 


(15 rows) 


342 ms to end, 


first row, 


start of 


46 ms to end, 


fset by 0.093 ms. 


I 


n (cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..1480.56 rows-108256 wic 
100000 rows with 0.021 ms to 


start offset by 0.116 ms. 


Work mem: 19449K bytes max. 
f; enable seqscan-off 


通过 这 种 方法 ， 可 以 看 出 ， 消 耗 的 内 存 与 实际 执行 时 间 的 比例 。 在 不 同 的 字段 重复 率 下 ， 计 算 如 下 9 个 聚合 函数 ， 在 分 别 使 用 HashAggregate 与 GroupAggregate 这 两 种 方式 进行 聚合 操作 的 情况 下 ， 
它们 使 用 内 存 及 执行 时 间 的 比较 如 表 5-5 所 示 。 


explain analyze select sum(coll),sum(col2),sum(col3),sum(col4),sum(col5),sum(col6),sum(col7),sum(col8),sum(col9) from test group group by id; 


表 5-5 9 个 聚合 函数 的 HashAgegregate 与 GroupAgegregate 比 较 


group by 
E on col8 col9 id 
TH 


Executor 
HashA gg- 554KB 2996KB | 5469KB | 13691KB | 21312KB | 29428KB | 29476KB 
ken memory 
regate 
Executor 
GroupAgg- 19623KB | 19623KB | 19623KB | 19623KB | 19623KB | 19623KB | 19623KB | 19623KB | 19623KB | 19615KB 


memory 
regate l 
时 间 (ms)) soo | $33 387 


在 不 同 的 字段 重复 率 情况 下 ， 计 算 27 个 聚合 函数 ， 在 分 别 使 用 HashAggregate 与 GroupAggregate 这 两 种 方式 进行 聚合 操作 时 ， 它 们 使 用 内 存 及 执行 时 间 的 比较 如 表 5-6 所 示 ， 测 试 SQL 如 下 : 


explain analyze select sum(coll),sum(col2),...,sum(col9), 
max (co11),max(co12 ] 
avg (col1) ,avg (co12), ....., avg (col 


z 
x 
Q 
O 


from test group group by id; 


表 5-6 ”27 个 聚合 函数 的 HashAggregate 与 GroupApgegregate 比 较 


Group 
is col3 col4 col5 col6 
By ^F E 


Executor 


col8 col9 id 


1299KB | 2340F 19687KB | 69947KB | 93859KB | 106419KB | 1068576KB 


Hash memory 
Aggregate Hf pE 
1391.1 
(ms) 


Executor 
19687KB | 19687KB | 19687KB | 19687KB | 19687KB | 19687KB | 19687KB | 19687KB | 19687KB | 19687KB 


可 以 看 出 ， 对 于 GroupAggregate 来 说， 消耗 的 内 存 基本 上 是 恒定 的 ， 无 论 对 哪个 字段 进行 Group By。 当 聚合 函数 较 少 的 时 候 ， 速 度 也 相对 较 慢 ， 但 是 相对 稳定 。 


memory 


1142 


HashAggregate 在 少数 聚合 函数 时 表现 优异 ， 但 是 对 于 很 多 聚合 函数 的 情况 ， 性 能 和 消耗 的 内 存 差异 很 明显 。 尤 其 是 受 Group By 字段 唯一 性 的 影响 ， 字 段 count (district) 值 越 大 ，HashAggregate 
消耗 的 内 存 越 多 ， 性 能 下 降 越 明 显 。 


所 以 在 SQL 中 有 大 量 聚合 国 数 ，Group By 的 字段 重复 值 比较 少 的 时 候 ， 应 该 用 GroupAggregate， 而 不 能 用 HashAggregate。 
5.7.3 Nestloop Join, Hash Join 与 Merge Join 


(1) Nestloop join 


Nestloop join 就 是 所 谓 的 笛 卡 尔 积 ， 这 种 关联 的 效率 极 差 。 比 方 说 ， 有 两 张 100 万 的 表 关 联 ， 则 会 产生 100 万 x100 万 =1 万 亿 的 数据 量 ， 如 果 还 有 筛选 ， 再 对 结果 集 进 行 筛选 ， 这 是 相当 可 怕 的 。 尤 其 是 
对 于 Greenplum 这 种 资源 独占 的 系统 ， 一 个 SQL 就 可 以 将 数据 库 所 有 的 资源 消耗 完 ， 造 成 其 他 的 SQL 无 法 运行 ， 如 果 对 两 张大 表 做 笛 卡 尔 积 ， 会 产生 极 大 的 中 间 表 ， 随 时 有 可 能 将 数据 库 的 存储 耗 光 ， 叶 致 
整个 数据 库 垮 掉 ， 后 果 相 当 严 重 ， 所 以 在 数据 库 中 ， 应 该 杜绝 这 种 笛 卡 尔 积 。 如 果 在 执行 计划 中 ， 看 到 了 Nestloop， 那 就 要 小 心 了 ， 一 般 都 是 SQL 有 问题 。 


(2) Hash join 


这 是 在 关联 时 候 采 用 的 一 种 很 高 效 的 方法 ， 它 先 对 其 中 一 张 关联 的 表 计算 hash 值 ， 在 内 存 中 用 一 个 散 列表 保存 ， 然 后 对 另外 一 张 表 进 行 全 表 扫描 ， 之 后 将 每 一 行 与 这 个 散 列表 进行 关联 。 对 于 散 列 表 来 
说 ， 在 理想 情况 下 ， 每 一 行 的 关联 都 只 有 QO (1) 常数 的 消耗 ， 从 而 使 得 表 关 联 达 到 很 高 的 性 能 。 在 一 般 情况 下 ，Greenplum 都 是 使 用 这 个 关联 方式 进行 等 值 连 接 的 。 


(3) Merge Join 


这 种 方法 是 对 两 张 表 都 按照 关联 字段 进行 排序 ， 然 后 按照 排序 好 的 内 容 顺 序 遍 历 一 遍 ， 将 相同 的 值 连接 起 来 ， 从 而 实现 了 连接 。 使 用 这 种 方法 ， 最 大 的 消耗 是 对 两 表 进行 排序 ， 快 速 排序 至 少 也 要 
O (nlogn) 的 时 间 复 杂 度 。Greenplum 默 认 将 Mergejoin 给 关闭 掉 了 。 


Oza 在 PG 文 档 中 ， 有 一 节 叫 做 “明确 的 JOIN 控制 规划 器 ”， 这 一 节 说 明了 执行 计划 生产 过 程 中 表 关 联 的 一 些 规则 ， 建 议 读者 仔细 阅读 。 
5.7.4 MRAR: 开 窗 为 数 和 grouping sets 


1. 开 窗 函数 


对 于 如 下 的 SQL: 


explain select 
row number()over(partition by offer type order by join from) 


,row number () over (partition by member id order by gmt create) 
from offer; 


执行 计划 的 图 示 如 图 5-6 所 示 。 


这 段 SQL 代 码 中 有 两 个 开 窗 函 数 。 开 窗 函数 的 实现 与 Group By 相似 ， 需 要 把 分 组 (partitionby) 的 字段 分 布 到 一 个 节点 上 计算 ， 这 个 表 的 分 布 键 是 offer_ id， 而 offer_id 不 是 开 窗 函数 的 分 区 字段 ， 故 
都 要 将 数据 进行 重 分 布 才能 计算 ， 步 又 如 下 : 


1) 顺序 扫描 appenonly 的 offer 表 。 
2) 按照 member id 字 段 进 行 重 分 布 。 
3) 对 数据 重 分 布 之 后 按照 member_id 和 gmt_create 对 其 进行 排序 ， 然 后 将 排 好 顺序 的 数据 进行 编号 ， 即 完成 了 这 个 row_number 的 开 窗 函 数 。 


4) 再 按照 offer_type 对 数据 进行 重 分 布 ， 用 同样 的 方法 计算 另外 一 个 开 窗 函数 的 值 。 


Gather Motion 6:1 (slice3) 


Subquery Scan coplan 


Append-only Scan offer 


图 5-6” 开 窗 函 数 的 执行 计划 图 示 


由 于 分 区 字段 不 是 分 布 键 ， 所 以 数据 全 部 都 要 重 分 布 一 遍 ， 如 果 开 窗 函 数 太 多 ， 会 导致 数据 重 分 布 的 次 数 非常 多 ， 每 一 次 重 分 布 每 一 个 egment 都 要 发 起 一 个 进程 来 处 理 ， 这 会 给 操作 系统 和 网 络 都 带 
来 一 定 的 压力 ， 所 以 开 窗 函数 尽量 少 用 ,或 者 用 分 区 键 作为 分 布 键 ， 这 样 也 可 以 减少 数据 库 的 消耗 。 


如 果 开 窗 浮 数 是 对 整个 数据 进行 排序 ， 没 有 partition 字 段 ， 那 么 为 了 维护 一 个 全 局 的 序列 ， 所 有 数据 都 必须 汇总 到 Master 上 进行 计算 ,然后 表 重 新 分 发 到 每 一 个 节点 上 ， 这 个 性 能 瓶颈 会 出 现在 
Master 上 ， 效 率 会 很 差 。 例 如 下 面 这 段 SQL 代码 : 


testDB-4 explain 
testDB-4 insert into offer2 


testDB-4 select offer id, row number()over(order by gmt create) 
testDB-4 from offerl; 


QUERY PLAN 
Insert (slice0; segments: 6)  (rows-1 width-40) 
-> Redistribute Motion 1:6 (slice2; segments: 1) (cost-0.0l1http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.06 rc 
Hash Key: "*SELECT*".offer id 


-> Subquery Scan "*SELECT*"  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.06 rows-6 width-40) 
-> Window  (cost-0.01lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.04 rows-l width-40) 
Order By: offerl.gmt create 
-> Gather Motion 6:1 (slicel; segments: 6) 


(cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.04 rows-1 width-40) 
Merge Key: offerl.gmt create 
-> Sort  (cost-0.01lhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width-40) 
Sort Key: offerl.gmt create 


-> Seq Scan on offerl (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 
(11 rows) 


2.grouping sets 
282:31148 f grouping sets, f&FHAtiregZXgrouping sets、cube、rollup 可 进行 多 维度 分 析 ， 如 下 面 的 SQL 语句 : 


explain select a,b,count(1) from cxfa group by grouping sets((a), (b), (a,b)); 


其 执行 计划 图 如 图 5-7 所 示 。 
Gather Motion 6:1 (slice3) 


Append 


Subquery Scan "rollup" 


Redistribute Motion 6:6 (slice2) 


GroupAggregate group by a 


Subquery Scan "rollup" | Group By: public.cxfa.a 


GroupAggregate group by a,b Sort Key: a 


Sort Key:a Shared Scan 


Shared Scan 


Materialize 


Seq Scan on cxfa 


图 5-7 grouping sets 的 执行 计划 图 示 
grouping sets 的 执行 步骤 如 下 。 
1) 顺序 扫描 cxfa 表 ， 然 后 将 其 保存 在 内 存 中 ， 之 后 分 两 个 分 支 进行 。 
2) 分 支 1: 读 取 在 内 存 中 的 数据 ， 按 照 a 执 行 GroupAggregate， 计 算出 a 字 段 汇总 结果 (a 是 分 布 键 ) 。 
3) 3x2: 读 取 内 存 中 的 数据 ， 按 照 a、b 执 行 GroupAggregate， 计 算出 这 两 个 字段 的 汇总 结果 ， 然 后 按照 b 字 段 重 分 布 ， 再 计算 出 b 字 段 的 汇总 结果 。 
4) 将 分 支 1 与 分 支 2 的 结果 都 进行 重 分 布 ， 然 后 分 别 执行 HashAggregate。 


5) 将 结果 在 Master 上 汇总 起 来 。 


5.8 ”案例 


5.8.1 ”天 联 键 强制 类 型 转换 ， 导 致 重 分 布 


两 表 的 关联 键 id 的 类 型 都 是 一 样 的， 都 是 integer 类 型 。 如 果 强 制 将 两 个 integer 类 型 转换 成 其 他 类 型 ， 会 导致 两 个 表 都 要 重 分 布 。 


正常 关联 的 执行 计划 如 下 : 
testDB-4 explain select * from testl a join test2 b on a.id-b.id; 
QUERY PLAN 
Gather Motion 6:1  (slicel)  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.05 rows-3 width=300) 


-> Hash Join  (cost-0.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.05 rows-3 width=300) 
Hash Cond: a.id = b.id 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-1 width=150) 
-> Hash  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=150) 
-> Seq Scan on test2 b  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=15 
Settings: enable seqscan-off 
(7 rows) 


强制 将 两 个 表 的 执行 计划 转换 成 numeric 之 后 的 执行 计划 : 


testDB-4 explain select * from testl a join test2 b on a.id::numeric-b.id::numeric; 
QUERY PLAN 
Gather Motion 6:1  (slice3)  (cost-0.03http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.10 rows-3 width=300) 
-> Hash Join  (cost-0.03http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.10 rows-3 width=300) 
Hash Cond: a.id::numeric = b.id::numeric 
-> Redistribute Motion 6:6 (slicel) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..0.02 rows=1 wic 
Hash Key: a.id::numeric 
-> Seq Scan on testl a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows=1 width=15 
-> Hash  (cost-0.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows-l width=150) 
-> Redistribute Motion 6:6 (slice2) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.02 rows 
Hash Key: b.id::numeric 


-> Seq Scan on test2 b  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..0.00 rows-1l wic 


Settings: enable seqscan-off 
(11 rows) 


可 以 看 出 ， 由 于 两 个 表 刚 开始 的 时 候 都 
节点 进行 关联 。 


5.8.2 ”统计 信息 过 期 


前 面 已 经 讲 到 ， 当 统计 信息 过 期 的 时 候 ， 会 导 


一 般 的 解决 办 法 就 是 将 表 重 新 使 用 anal 


5.8.3 执行 计划 出 钳 


有 时 候 统计 信息 是 正确 的 ， 但 是 由 于 信 


例如 ， 在 SQL 中 加 入 了 一 个 无 用 的 条 件 : 


是 按照 integer 的 类 型 进行 分 布 的 ， 但 是 关联 的 时 候 强制 将 类 型 转换 成 numeric 类 型 ， 由 于 integer 与 numeri 


致 执行 计划 出 错 。 选 择 一 个 糟糕 的 执行 计划 ， 会 导致 很 大 的 数据 库 开销 。 


yze 分 析 一 下 ， 重 新 收集 统计 信息 。 或 者 使 用 vacuum full analyze 对 表 中 的 空洞 进行 回收 ， 从 而 提高 性 能 。 


息 不 够 全 面 ， 或 者 执行 的 优化 器 还 不 够 精准 ， 可 能 会 使 对 结果 集 大 小 的 估计 有 很 大 的 偏差 。 


id::integer&0=0; 


testDB=# select count (1) from offer 2 ; 


count 


1000000 
(1 row) 


testDB=# select count (1) from offer 2 where id::integer&0-0; 


count 


1000000 
(1 row) 


以 上 两 个 SQL 的 数据 量 是 一 样 的 ， 但 是 执行 计划 看 起 来 却 有 很 大 的 区 别 : 


testDB-4 explain select * from offer 2 ; 


< 的 hash 值 是 不 一 样 的 ， 所 以 数据 需要 重 分 布 到 新 的 


Gather Motion 6:1 (slicel; segments: 6) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..30654.00 rows-1666€ 
(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..30654.00 rows-166667 widt 


-> Append-only Scan on offer 2 
(2 rows) 


testDB-4 explain select * from offer 2 where id::integer&0-0; 


->  Append-only Scan on offer 2 
Filter: (id::integer & 0) 
(3 rows) 


从 cost 值 可 以 看 出 ， 数 据 库 对 结果 集 的 


致 内 存 占用 过 高 、 关 联 的 性 能 变 差 ， 进 而 会 导 


QUERY PLAN 


a Gather Motion 6:1  (slicel; segments: 6) (cost=0.00http://www.hzcourse.com/resource/readBook?patr 


(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..38154.00 rows-167 width= 


估计 ， 一 个 是 167， 一 个 是 166667， 相 差 将 近 1000 倍 。 如 果 数 据 库 通过 这 个 估计 值 去 判断 表 是 进行 广播 还 是 


致 执行 太 慢 ， 或 者 因为 内 存 不 足 而 导致 SQL 报错 。 


testDB-4 explain select * from offer 2 a,member b where a.member id-b.member id; 


QUERY PLAN 


重 分 布 ， 就 有 可 能 会 将 大 表 广 播 ， 数 据 量 太 大 ， 会 导 


Gather Motion 6:1  (slice3; segments: 6)  (cost-177901.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..6989899.10 r 


-> Hash Join  (cost-177901.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 
Hash Cond: b.member id::text = a.member id::text 


— 


BPS/Text/..6989899.10 rows-84930667 width-7448) 


-> Redistribute Motion 6:6 (slicel; segments: 6) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..97 


Hash Key: b.member id::text 


-> Seq Scan on member b (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..78087.19 rows-165570 


-> Hash  (cost-50654.00h 
-> Redistribute Mo 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 
tion 6:6 (slice2; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/1 
Hash Key: a.member id::text 


1 


BPS/Text/..50654.00 rows-166667 width-3729) 


-> Append-only Scan on offer 2 a (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..30654. 


(10 rows) 


这 个 是 正常 的 执行 计划 ， 将 两 张 表 都 重 分 布 ， 但 是 如 果 加 上 了 条 件 a.id::integer&0=0， 则 Greenplum 会 以 为 结果 集 很 小 ， 从 而 误 将 大 表 广 播 : 


testDB-4 explain select * from offer 2 a,member b where a.member id-b.member id and a.id::integer&0-0; 


QUERY PLAN 


Gather Motion 6:1  (slice2; segments: 6)  (cost-38299.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..131609.34 row 


-> Hash Join  (cost-38299.00ht 


-> Seq Scan on member b 


-> Hash  (cost-38224.00h! 


-> Broadcast Motion 


(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompres 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 
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tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..131609.34 rows-84931 width-7448) 
Hash Cond: b.member id::text = a.member id::text 


sed/14936/0EBPS/Text/..78087.19 rows-165570 widt 
BPS/Text/..38224.00 rows-1000 width-3729) 


6:6 (slicel; segments: 6) 


S-1000 width-3729) 


(cost-0.00http: //www.hzcourse.com/ 


resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..38224.00 row 


-> Append-only Scan on offer 2 a  (cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/ 


Filter: 


(id::integer & 0) = 0 


(8 rows) 


cost 值 似乎 变 小 了 。 Greenplum 认 为 o 
记录 广播 了 。 广 播 offer 2 的 代价 非常 的 大 ， 


对 于 这 种 执行 计划 出 错 ， 没 有 很 好 的 办 


teach ebook/uncompresseq/14936/OEBPSVText/. .3815 


ffer_2 表 在 筛选 之 后 只 有 1000 条 ， 相 对 member 表 数据 量 非 常 小 ， 因 此 执行 计划 认为 将 offer_2 表 广播 的 代价 比较 小 ， 就 采用 了 广播 的 策略 ， 而 实际 上 是 将 100 万 


对 于 有 些 SQL， 有 可 能 因为 广播 使 用 内 存 过 多 ， 造 成 内 存 不 足 ， 从 而 导致 SQL 运行 报错 。 


法 ， 只 能 将 SQL 拆 分 ， 物 化 一 张 新 的 表 来 实现 。 


create table offer tmp as select * 


from offer 2 where id::integer&0-0; 


通过 物化 ， 让 Greenplum 重 新 收集 offer tmp 的 信息 ， 然 后 再 与 nember 表 进行 关联， 才能 得 到 正确 的 执行 计划 。 


5.8.4 “分 布 键 选 择 不 恰当 


分 布 键 选 择 不 当 一 般 有 两 种 情况 : 


' 随便 选择 一 个 字段 作为 分 布 键 ， 导 致 关联 的 时 候 需 要 重 分 布 一 个 表 来 关联 。 


分布 键 导 致 数据 分 布 不 均 ，SQL 都 卡 


对 于 第 一 种 情况 ， 我 们 可 以 通过 查询 执行 计划 来 得 


在 一 个 Segmenht 上 进行 计算 。 


。 当 执行 计划 出 现 Redistribute Motion 或 Broadcast Motion 时 ， 我 们 就 知道 重新 分 布 了 数据 ， 这 个 时 候 就 要 留意 分 布 键 选 择 是 否 有 误 ， 进 而 导致 


多 余 的 重 分 布 ， 比 如 一 个 表 用 了 字段 id 来 分 布 ， 另 外 一 个 表 通 过 jid 和 name 两 个 字段 来 分 布 ， 然 后 通过 id 来 进行 关联 ， 这 个 时 候 也 会 导致 数据 重 分 布 。 


第 二 种 情况 就 比较 麻烦 ， 因 为 在 执行 计划 中 ， 我 们 看 不 出 SQL 有 什么 问题 ， 往 往 要 到 SQL 执行 非常 慢 的 时 候 才 意识 到 有 问题 。 在 数据 分 布 不 均 中 ， 有 一 个 特例 ， 就 是 空 值 ， 这 是 一 个 比较 常见 的 问题 。 


我 们 将 在 第 10 章 中 详细 介绍 如 何 排除 这 种 问题 。 


下 面 将 介绍 几 个 方法 来 判断 表 是 否 分 布 不 均 。 


1) 每 个 表 都 有 一 个 隐藏 字段 gp segment id， 表示 数据 是 在 哪个 Segment 上 的 ， 我 们 可 以 对 这 个 字段 进行 Group By 来 查看 每 个 节点 的 数据 量 。 


testDB-4 select gp segment id,count(1) from test01 group by 1 order by 1 ; 
gp segment id | count 


(6 rows) 


2) 对 于 appendonly 表 ， 我 们 还 可 以 通过 get ao distributiongZIGEXX BUSUIS 23 BE fe ks 


testDB-4 select * from get ao distribution ('test01') order by 1; 
segmentid | tupcount 
0 3948 
1 3576 
2 5448 
3 4020 
4 4740 
S 3396 


(6 rows) 


3) 在 第 10 章 中 ， 会 介绍 视图 all_seg_sql， 通 过 这 个 视图 ,我 们 可 以 查看 子 节点 上 正在 运行 的 所 有 SQL。 


如 果 我 们 在 数据 库 中 发 现 一 条 SQL 执 行 了 很 长 时 间 ， 但 是 在 执行 计划 中 看 不 出 有 什么 问题 ， 这 个 时 候 ， 我 们 可 以 查 出 这 条 SQL 的 sess_id， 然 后 通过 这 个 sess_id， 用 下 面 的 SQL 查 询 所 有 节点 SQL 的 运行 


情况 。 如 果 只 发 现 其 中 小 部 分 节点 还 在 运行 ， 则 表示 大 多 数 都 是 数据 分 布 不 均 导 致 的 。 


select * from all seg sql where sess id-xxxx; 


还 有 很 多 种 数据 分 布 不 均 的 情况 很 难 发 现 ， 如 果 3QL 比 较 复杂 ， 我 们 可 以 查询 表 是 否 分 布 均匀 ， 但 是 由 于 有 重 分 布 ， 而 对 于 Greenplum 来 说 ， 重 分 布 并 不 会 考虑 数据 是 否 均衡 ， 因 此 会 导致 原 表 可 能 是 


分 布 均 匀 的 ， 中 间 却 发 生 了 重 分 布 (关联 或 者 是 聚合 引起 的 ) 。 这 样 就 更 难 定位 到 问题 了 ， 如 果 通 过 all_seg_sdql 观 察 到 有 数据 不 均 ， 那 就 要 根据 SQL 业务 逻辑 的 理解 或 者 将 SQL 拆 分 成 小 的 SQL 来 进行 分 析 ， 
看 看 到 底 是 哪 一 步 导 致 的 数据 分 布 不 均 。 


5.8.5 ”计算 distinct 


在 SQL 中 使 用 distinct 一 般 有 两 种 办 法 。 


第 一 种 是 将 全 部 数据 按照 使 用 distinct 那 个 字段 排序 ， 然 后 执行 一 个 unique 操 作 去 掉 重 复 的 数据 ， 这 样 效率 是 比较 差 的 。 


testDB-4 explain select distinct coll from test10; 
QUERY PLAN 
Gather Motion 6:1  (slice2)  (cost-858107.25http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..880419.21 rows-137665 wic 


Merge Key: coll 
-> Unique  (cost-858107.25http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..880419.21 rows-137665 width-6) 
Group By: coll 
-> Sort  (cost-858107.25http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..869263.23 rows-4462392 width-6) 
Sort Key (Distinct): coll 
-> Redistribute Motion 6:6 (slicel) (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..140812.7€ 
Hash Key: coll 
-> Seq Scan on test10 (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..51564.92 rows-44€ 
Settings: enable seqscan-off 
(10 rows) 
Time: 0.958 ms 


第 二 种 是 按照 使 用 distinct 哪 个 字段 来 计算 hash 值 ， 然 后 放 到 一 个 hash 数 组 中 ， 同 样 的 值 会 得 到 相同 的 hash 值 ， 从 而 实现 去 重 的 功能 。 


对 于 如 下 的 执行 计划 ， 从 开销 来 看 ， 只 使 用 了 不 到 第 一 种 执行 计划 1/10 的 开销 。 


testDB-4 explain select coll from test10 group by coll; 
QUERY PLAN 


Gather Motion 6:1  (slice2)  (cost-67195.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..68571.66 rows-137665 widtr 
-> HashAggregate (cost-67195.01http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..68571.66 rows-137665 width-6) 
S Redi Dues Mb oh 6:6 (slicel)  (cost-62720.90http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..65474.2C 
ee sources/teach ebook/uncompressed/14936/0EBPS/Text/..62720.90 rows-137665 w 
iure dor 0 (cost=0.00http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..51564.92 rows-44€ 


(8 rows) 


在 Greenplum4.1 中 ， 使 用 distinct 只 能 采用 第 一 种 方法 ， 这 种 方式 的 效率 很 差 。 所 以 我 们 建议 在 使 用 distinct 的 时 候 将 SQL 改 写 为 Group By 形式 ， 这 样 就 能 够 使 用 第 二 种 方式 ， 以 大 大 提高 性 能 。 在 


Greenplum 4.3 版 本 中 ，distinct 跟 group by 两 种 方式 都 采用 了 HashAggregate 这 种 方式 ， 性 能 上 就 区 别 不 大 了 。 


而 对 于 count (distinct) ， 则 没有 这 个 问题 ， 在 规划 期 会 选择 HashAggregate 来 执行 这 段 SQL: 


testDB-4 explain select count(distinct coll),count(distinct col2) from test10; 
QUERY PLAN 
Nested Loop  (cost-179660.54http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..179660.59 rows=1 width-24) 
-> Aggregate  (cost-89608.02http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..89608.03 rows-l width-12) 
-> HashAggregate  (cost-85591.56http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..87599.79 rows-133882 width-1 
Group By: public.test10.col2 
-> Gather Motion 6:1  (slicel)  (cost-73876.88http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..83248.62 
-> HashAggregate (cost-73876.88http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..73876.88 rows-133€ 
Group By: public.test10.col2 
-> Seq Scan on test10 (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..51564.92 rc 
-> Aggregate  (cost-90052.52http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..90052.53 rows-l width-12) 
-> HashAggregate  (cost-85922.5"/http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..87987.54 rows-137665 width-1 
Group By: public.testli0.col1 


-» Gather Motion 6:1 


Settings: 


(slice2) 


-> HashAggregate (cost-73876.88h! 
Group By: public.testl0.col1 
-> Seq Scan on testlO0 (cost-0.00ht 


(16 rows) 


enable seqscan-of 


5.8.6 union &union all 


主意 ， 如 果 使 用 union,， 


testDB=# create table t01 
testDB-# as select * from pg tables 
testDB-4 distributed by (tablename); 
SELECT 254 
testDB-4 create ta t02 
testDB-# as select from pg tables 
testDB-i n unu by (tablename); 
SELECT 255 
testDB-4 create rase t03 
testDB-4 as select from pg tables limit 0 
testDB-i Deco by (tablename); 
SELECT 0 
LtestDB-4 explain insert into t03 select * from t01 union select * from t02; 
OUERY PLAN 
Insert (slice0; segments: 6)  (rows-85 width-259) 
-> Redistribute Motion 6:6  (slice2; segments: 6)  (cost-45.06http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0l 


Hash Key: tablename 


(cost-73876.88h 


ttp://www.hzcourse.com/resource/readl 


tp://www.hzcourse.com/resource/readBook?pa 
Book?pat 


th-/openresources/ 


进行 去 重 。 在 Greenplum 中 ， 如 果 不 是 分 布 键 ， 去 重 的 就 要 涉及 数据 的 重 分布 ， 
一 般 Union 的 结果 会 插入 到 另外 一 张 表 中 ， 又 会 造成 一 ; 


次 数据 重 分 布 ， 


tp://www.hzcourse.com/resource/readBook?path-/openresources/ 


而 在 Greenplum 中 则 更 加 特殊 ， 因 为 这 个 去 重 是 以 整 


效率 会 较 差 。 


teach ebook/uncompressed/1 
h-/openresources/teach ebook/uncompressed/14936/0 


teach ebook/uncompressed/1 


行 数据 为 分 布 键 的 ， 


4936/0EBPS/Text/..83513.43 rc 
EBPS/Text/..73876.88 rows-137€ 
4936/0EBPS/Text/..51564.92 rc 


这 样 分 布 键 很 长 ， 


— 


—BPS/Text/. 


I 


SO 


-> Unique  (cost-45.06http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..55.24 rows-85 width=259) 
Group By: schemaname, tablename, tableowner, tablespace, 
hasindexes, hasrules, hastriggers 
-> Sort  (cost-45.06http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..46.34 rows-85 width=259) 
Sort Key (Distinct): schemaname, tablename, tableowner, 
tablespace, hasindexes, hasrules, hastriggers 
-> Redistribute Motion 6:6  (slicel; segments: 6) 
(cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..22.18 rows-85 width=259) 
Hash Key: schemaname, tablename, tableowner, i 
tablespace, hasindexes, hasrules, hastriggers 
-> Append  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..22.18 rows-85 width-Z 
-» Seq Scan on t01  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..8.54 r 
-> Seq Scan on t02  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..8.55 r 


(12 rows) 


从 执行 计划 中 可 以 看 到 ，Greenplum 会 按照 所 有 的 字段 作为 key 来 去 重 分 布 数 据 ， 然 后 按照 全 部 的 字段 去 排序 ， 再 去 重 ， 从 而 实现 Union 的 操作 。 


Qus 分 布 键 字段 很 多 会 造成 CPU 消耗 比较 高 ， 


是 35%，98 个 字段 重 分 布 的 CPU 使 用 率 大 概 是 45%， 网 络 的 消耗 基本 一 致 。 
使 用 Union All 可 能 会 造成 不 必要 的 数据 重 分 布 ， 还 是 用 上 面 的 3 张 表 。 
testDB-4 create view view01 
testDB-4 as 
testDB-4 select * from t01 
testDB-4 union all 
testDB-4 select * from t02; 

CREATE VIEW 
testDB-4 explain insert into t03 
testDB-4 select * from view01; 
QUERY PLAN 
Insert (slice0; segments: 6)  (rows-85 width-259) 
-> Redistribute Motion 6:6  (slicel; segments: 6) 


Hash Key: tablename 


-> Append 
-> Seq Scan on 
-> Seq Scan on 


(6 rows) 


表 t01 和 t02 的 分 布 键 都 是 tablename， 在 使 用 union all 之 后 
个 坑 ， 对 于 这 段 SQL， 可 以 去 掉 union all, 


候 要 小 心 这 


5.8.7 ” 子 查 询 not in 


t01 
t02 


笔者 简单 测试 了 一 下 ， 分 布 键 为 一 个 字段 和 98 个 字段 的 重 分 布 在 执行 时 间 上 差不多 


(cost-0.00http: //www.hzcourse.com/resource/readi 


(cost-0.00http: //www.hzcourse.com/resource/readi 


， 但 是 在 消耗 的 CPU 上 ， 


F 


Book?path-/openresources/teach ebook/uncompressed/14936/0l 


(cost-0 


.00h 


(cost-0 


.00h 


tp://www.hzcourse.com/resource/readl 
tp://www.hzcourse.com/resource/readl 


4 
4 


936/01 
936/01 


Book?path-/openresources/1 
Book?path-/openresources/i1 


teach ebook/uncompressed/1 
teach ebook/uncompressed/1 


rj [1] 


分 别 将 两 个 表 的 数据 单独 插入 到 t03 表 中 ， 以 避免 不 必要 的 数据 重 分 布 。 


我 们 先 来 看 如 下 的 执行 计划 ， 在 Greenplum4.1 上 : 


testDB-4 explain select * from test10 where coll not in 
OUERY PLAN 
Gather Motion 6:1  (slice2)  (cost-164.57ht 
-» Nested Loop Left Anti Semi Join (cost 
width-16) 
Join Filter: (testl0.coll::text = "NotIn SUBQUI 
FALSE 加 
-> Seq Scan on test10 (cost=0.00hi 
-> Materialize  (cost-164.57htl 
-> Broadcast Motion 6:6  (slicel) 
rows-10098 width-68) 
-> Subquery Scan "NotIn SUBQUERY" 
rows-1683 width-68) 
-> Seq Scan on test10 
width-6) 
Settings: enable seqscan-o 
(9 rows) 


Time: 1.048 ms 


无 论 我 们 怎 


么 调整 控 


tp://www.hzcourse.com/resource/readi 


执行 计划 的 参数 ， 对 于 这 种 not in 的 SQL， 


(select col2 


-164.57http: //www.hzcourse.com/resource/readl 
ERY".col2::text) 
ttp://www.hzcourse.com/resource/readl 
ttp://www.hzcourse.com/resource/readl 
(cost-0.00http: //www.hzcourse.com/resource/readBook?pat. 


(cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openreso 


(cost-0.00http: //www.hzcourse.com/resource/readBook?path-/openresources/ 


数据 库 都 无 法 选择 其 他 的 执行 计划 。 


from test10); 


Book?path-/openresources/teach ebook/uncompressed/14936/0 


—— 
G 


Book?path=/openresources/teach ebook/uncompressed/14936/0 


IS NOT 


€ 


EBPS/Text 


Book?path-/openresources/t 
Book?path-/openresources/teach : 


each ebook/uncompressed/14936/0 
ebook/uncompressed/14936/0El 
th-/openresources/| 


SQL 来 实现 这 种 not in 的 语法 。 我 们 使 用 left join 去 重 后 的 表 关 联 来 实现 一 样 的 效果 ， 执 行 计划 如 下 : 


BPS/Text 
BPS/Tex: 


Book?path-/openresources/teach ebook/uncompressed/14936/0l 


分 布 键 也 应 该 还 是 tablename，t03 表 的 分 布 键 也 是 一 样 的 ， 当 向 t03 表 插入 数据 的 时 候 ， 却 发 生 了 数据 重 分 布 。 


一 个 字段 重 分 布 的 时 候 CPU 的 使 用 率 大 概 


"T 


—BPS/Text/..22.1€ 


I 


—BBPS/Text/..22.18 rows-85 width=259) 
t/..8.54 rows-43 widi 
E/..8.55 rows-43 widi 


th-259) 
th-259) 


读者 在 使 用 union all 的 时 


T 


I 


/..19.8 


—BPS/Text/..382570.41 rows-1682 width-1€ 
—BPS/Text/..382570.41 rows-16€ 


3 rows-1683 width-160) 


teach ebook/uncompressed/14936/0 
urces/teach ebook/uncompressed/14936/0l 


teach ebook/uncompressed/14936/0 


这 样 ，SQL 都 使 用 笛 卡 儿 积 来 执行 ， 效 率 极 差 。 为 了 避免 这 种 极 差 的 执行 计划 ， 我 们 只 全 


BPSVText/..265.55 rows-10098 width=68) 


IS 


EBPS/Text/..154.47 


-— 


—BPS/Text/..36. 


I 


i 


—BPS/Text/..19.83 row 


T 


ENSIS RECS 


1682 width-84) 


—BPS/Text/..53.49 rows-1 


.19.83 rows-1683 wic 


testDB-4 explain select * from test10 a left join(select col2 from test10 group by col2) b on a.coli-b.col2 where b.col2 is null; 
QUERY PLAN 
Gather Motion 6:1  (slice3)  (cost-133.43http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..212.16 rows-1682 width-84) 
-> Hash Left Join  (cost-133.43http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..212.16 rows- 
Hash Cond: a.coll::text - b.col2::text 
Filter: b.col2 IS NULL 
-> Redistribute Motion 6:6  (slicel)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0E 
width-16) 
Hash Key: a.coll::text 
-> Seq Scan on test10 a  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/. 
-> Hash  (cost-112.39http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..112.39 rows-1683 width-68) 


-> HashAggregate  (cost-78.73http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..95.56 rows-1683 width-6) 


Group By: test10.col2 
-> Redistribute Motion 6:6  (slice2)  (cost-24.04http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0 
rows-1683 width-6) 
Hash Key: testl10.col2 
-> HashAggregate  (cost-24.04http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..24.04 rows-1€ 
width-60) 

Group By: testl10.col12 

-> Seq Scan on test10 

rows-1683 width-6) 


EBPS/Text/. 


(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..19. 


Settings: enable seqscan-of 
(16 rows) 
Time: 13.396 ms 


从 SQL 中 的 cost 我 们 看 出 ， 这 两 个 实现 一 样 功能 的 SQL 在 性 能 上 有 极 大 的 差异 ， 对 于 相同 的 数据 量 ， 一 个 使 用 了 30 多 秒 ， 另 外 一 个 只 用 了 92 毫 秒 : 


testDB-4 select count(1) from (select * from test10 where coll not in (select col2 from test10))t; 
count 


(1 row) 


Time: 3278.033 ms 
testDB-4 select count(1) from (select * from test10 a left join(select col2 from test10 group by col2) b on a.coll-b.col2 where b.col2 is null)t; 


count 


(1 row) 
Time: 92.180 ms 


以 上 关于 not in 不 同 写 法 在 性 能 上 的 差异 在 Greenplum 4.1 中 很 明显 ， 经 过 测试 ， 在 新 版 本 Greenplum 4.3 中 对 其 进行 了 优化 ， 采 用 了 Hash Left Anti Semi Join 的 天 联 算法 来 实现 了 not in 的 语义 ， 性 
能 与 改写 成 left join 的 形式 差不多 。 在 Greenplum 4.3 中 ， 执 行 计划 如 下 : 


testDB-4 explain select * from test10 where coll not in (select col2 from test10); 
OUERY PLAN 


tp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..15541.32 rows 


Gather Motion 4:1  (slice2; segments: 4)  (cost-12137.44ht 
-> Hash Left Anti Semi Join (Not-In)  (cost-12137.44http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..15541.32 rows- 
Hash Cond: public.testlO.coll::text = "NotIn SUBQUERY".col2::text i 
-> Seq Scan on test10  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..1158.12 rows-24953 width-1€ 


Filter: coll::text IS NOT NULL 


-> Hash  (cost-7146.84http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..7146.84 rows-99812 width=274) 
-> Broadcast Motion 4:4  (slicel; segments: 4) i 
(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/..7146.84 rows-99812 width=274) 
-> Subquery Scan "NotIn SUBQUERY"  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..215 


rows-24953 width-274) 
-> Seq Scan on test10 
rows-24953 width-5) 


(cost-0.00http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1158.12 


(9 rows) 
Qi 如 果 读 者 想 在 Greenplum 4.3 中 模拟 4.1 中 这 种 比较 慢 的 执行 计划 ， 可 以 设置 参数 enable_hashjoin=off， 然 后 再 运行 SQL 即 可 。 


5.8.8 ”聚合 函数 太 多 导致 内 仓 不 足 


在 Greenplum 4.1 数 据 库 中 ，SQL 进 行 很 多 的 聚合 运算 时 ， 有 时 候 会 报 如 下 的 错误 : 


(seg43 slicel sdw19-4:30003 pid-26345) (cdbdisp.c:1457)) 


Error 7 (ERROR: Unexpected internal error: Segment process received signal SIGSEGV (postgres.c:3360) 


这 段 SQL 其 实 就 是 占用 内 存 太 多 ， 进 程 被 操作 系统 发 出 信号 干扰 导致 的 报错 。 

查看 执行 计划 ， 发 现 是 HashAggregate 搞 的 鬼 。 一 般 来 说 ， 数 据 库 会 根据 统计 信息 来 选择 HashAggregate 或 GroupAggregate， 但 是 有 可 能 统计 信息 不 够 详细 或 5QL 太 复杂 而 选 错 执行 计划 。 
一 般 遇 到 这 种 问题 ， 有 两 种 方法 : 

1) 拆 分 成 多 个 SQL 来 执行 ， 减 少 HashAggregate 使 用 的 内 存 。 


2) 在 执行 SQL 之 前 ， 先 执行 enable_ hashagg=off; 将 HashAggregate 人 参数 关 掉 。 强 制 不 采用 HashAggregate 这 种 聚合 方式 ， 则 数据 库 会 采用 GroupAggregate， 虽 然 增 加 了 排序 的 代价 ， 但 是 内 存 
使 用 量 是 可 控 的 ， 建 议 用 这 种 方式 ， 比 较 简 单 。 


\ 一 /一 


下 次 如 果 再 遇 到 这 种 内 存 不 足 的 报错 ， 并 且 SQL 中 有 很 多 的 聚合 函数 ， 建 议 采 用 这 两 种 方法 改 脚本 重新 运行 。 


5.9 / 
对 于 所 有 数据 库 来 说 ， 学 会 阅读 执行 计划 ， 可 以 让 我 们 了 人 解 整 个 数据 库 的 运行 方式 。 对 于 SQL 调 优 来 说 ， 执 行 计划 是 一 个 强 有 力 的 利器 ， 本 章 介绍 了 以 下 几 个 方面 : 
- 阅读 执行 计划 。 
: 统计 信息 对 执行 计划 的 影响 。 
. 各 种 执行 计划 的 原理 。 


“ 执行 计划 案例 分 析 。 
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Greenplum 与 其 他 数据 库 在 执行 计划 上 的 最 大 区 别 就 是 广播 与 重 分 布 ， 而 这 两 个 过 程 又 严重 依赖 于 统计 信息 的 完整 性 ， 对 于 因 统 计 信息 不 完善 而 导致 的 执行 计划 出 错 ， 就 需要 将 SQL 拆 分 来 实现 。 


Greenplum 的 执行 计划 相对 其 他 数据 库 的 执行 计划 更 容易 出 错 ， 而 且 广 播 大 表 有 可 能 耗 尽数 据 库 所 有 的 资源 ， 因 此 在 分 析 执 行 时 间 过 长 的 SQL 时 ， 应 当 首 先 从 执行 计划 入 手 。 


第 6 章 ”Greenplum 高 级 应 用 


本 章 将 介绍 一 些 Greenplum 的 高 级 特性 ， 主 要 是 与 其 他 关系 型 数据 库 有 区 别 的 地 方 。 通 过 本 章 的 介绍 ， 读 者 会 对 Greenplum 中 针对 数据 仓库 OLAP 类 型 的 一 些 优 化 有 一 个 更 加 深入 的 了 解 。 


当今 的 数据 处 理 大 致 可 以 分 成 两 大 类 : 联机 事务 处 理 OLTP (On-Line Transaction Processing) 、 联 机 分 析 处 理 OLAP (On-Line Analytical Processing) 。OLTP 是 传统 的 关系 型 数据 库 的 主要 应 


用 ， 主 要 是 基本 的 、 日 常 的 事务 处 理 ， 例 如 银行 交易 。OLAP 是 数据 仓库 系统 的 主要 应 用 ， 支 持 复杂 的 分 析 操 作 ， 侧 重 决策 支持 ， 并 且 提 供 直 观 易 懂 的 查询 结果 。 表 6-1 列 出 了 OLTP 与 OLAP 之 间 的 比较 。 


表 6-1 OLTP 与 OLAP 的 比较 


QLIP OLAP 


用 户 Bt ie HIP ETL, BI, Hr A bi 
功能 日 常 操 作 处 理 分 析 决 策 
数据 当前 的 、 最 新 的 、 细 市 的 、 二 维 的 、 分 立 的 历史 的 、 聚 集 的 、 多 维 的 、 集 成 的 、 统 一 的 


仔 取 Be / 写 数 十 条 记录 污 / 写 上 百 万 条 记录 
C 作 单位 简单 的 事务 复杂 的 查询 


DB 大 小 100MB ~ 100GB 100GB 以 上 


看 完了 上 面 OLTP 和 OLAP 在 应 用 上 的 比较 ， 现 在 让 我 们 来 看 一 下 它们 在 硬件 的 使 用 特性 上 有 哪些 明显 的 区 别 ， 如 表 6-2 所 示 。 


表 6-2 OLTP 和 OLAP 在 硬件 性 能 上 的 差异 


OLTP OLAP 


大 部 分 随机 IO ， 数 据 量 小 ， 重 啊 应 时 间 顺序 IO, XEK, EAI 

效 据 量 小 ， 可 以 将 热点 数据 组 存在 内 存 中 ,| 数据 量 大 ， 每 次 读 取 是 全 表 扫 描 ， 内 存 主 要 用 在 
加 快 啊 应 时 间 排序 hash join 等 操作 上 ， 还 有 绥 存 数据 字典 

绥 存 表 数 据 ， 每 次 查询 都 共用 这 些 数据 缓存 SQL 中 间 结 有 果 数 据 ，SQL 执行 结束 后 ， 这 
BONFAMA R—1 SQL 挤 出 内 存 

对 响应 时 间 没 有 太 高 要 求 ， 但 是 对 于 Greenplum, 
里 分 布 和 广播 要 求 网 卡 要 有 很 蝇 的 硅 吐 


每 次 返回 结果 集 一 般 较 小 ， 网 络 主要 在 于 延 

时 时 间 小 

M SQL 很 多 时 ， 网 络 吞 吐 也 有 较 高 要 求 
TPS 高 时 ，CPU 需要 处 理 大 量 的 SQL，CPU| 依据 SQL 类 型 的 不 同 ， 一 般 CPU fi FH, XR 

CPU 消耗 较 局 颈 在 I0。 但 对 于 某 些 计算 性 SOL, CPU 消耗 也 可 

以 很 大 


网 络 


6.1 Appendonly 表 与 压缩 表 


对 于 数据 仓库 应 用 来 说 ， 由 于 数据 量 大 ， 而 且 每 次 的 分 析 几 乎 都 是 全 表 扫 描 ， 因 此 磁盘 无 论 在 存储 上 还 是 在 吞吐 上 ， 都 是 一 个 瓶颈 ,为 了 缓解 这 个 问题 ，Greenplum 引 入 了 Appendonly 表 和 压缩 表 的 


6.1.1 应用 场景 及 语法 介绍 
压缩 表 必 须 是 Appendonly 表 。Appendonly 表 顾名思义 ， 就 是 只 能 不 断奶 加 的 表 ， 不 能 进行 更 新 和 删除 。 
(1) 压缩 表 的 应 用 场景 
1) 业务 上 不 需要 对 表 进 行 更 新 和 删除 操作 ， 用 truncate+insert 就 可 以 实现 业务 逻辑 。 
2) 访问 表 的 时 候 基 本 上 是 全 表 扫描 ， 不 需要 在 表 上 建立 索引 。 
3) 不 能 经 常 对 表 进 行 加 字段 或 修改 字段 类 型 ， 对 Appendonly 表 加 字段 比 普 通 表 慢 很 多 。 
(2) 语法 介绍 
建 表 的 时 候 加 上 with (appendonly=true) 就 可 以 指定 表 是 Appendonly 表 。 如 果 需 要 建 压 缩 表 ， 则 加 上 with (appendonly=true，compresslevel=5) ， 其 中 compresslevel 是 压缩 率 ， 取 值 为 


1~9， 一 般 选择 5 已 经 足够 了 。 


6.1.2 ”压缩 表 的 性 能 差异 


由 于 数据 仓库 的 大 部 分 应 用 都 是 10 密 集 型 的 ， 当 然 ， 这 与 具体 的 业务 场景 有 天 。 对 于 数据 仓库 ， 每 次 的 查询 基本 上 都 是 全 表 扫 描 ， 大 量 的 顺序 读 写 。 


下 面 简单 测试 普通 表 与 压缩 表 在 性 能 上 的 差距 ， 由 于 测试 的 都 是 IO 密集 型 的 SQL， 因 此 性 能 差异 基本 上 是 与 压缩 率 成 正比 的 。 压缩 率 是 跟 实 际 数据 类 型 相关 的 ， 在 我 们 的 系统 中 ， 大 部 分 的 表 压 缩 率 大 
概 是 在 3~4 之 间 。 


一 张 简 单 的 商品 表 ， 总 数据 量 500 万 条 ， 常 见 的 数据 类 型 有 date、numeric、integer、varchar、text 等 ， 普 通 表 与 压缩 表 性 能 比较 结果 如 表 6-3 所 示 。 


表 6-3 首 通 表 与 压缩 表 的 性 能 比较 


压缩 表 (compresslevel-5) 


全 表 扫 摘 时 间 29406.261 ms 57369.278 ms 
好 人 人 时间 82368.702 ms 529447.779 ms 


Oza 测试 数据 与 硬件 环境 、 测 试 方法 及 业务 场景 有 很 大 的 关系 ， 故 测试 数据 仅 供 参 考 。 


6.1.3 Appendonly 表 特性 
对 于 每 一 张 Appendonly 表 ， 创 建 的 时 候 都 附带 创建 一 张 pg_aoseg 模 式 下 的 表 ， 表 名 一 般 是 pg_aoseg_+ 表 的 oid， 这 张 表 中 保存 了 这 张 Appendonly 表 的 一 些 原 数据 信息 ， 下 面 将 做 详细 的 介绍 。 


首先 建 一 张 Appendonly 的 表 : 


testDB=# create table test appendonly with (appendonly-true , compresslevel-5) 
testDB-4 as 

testDB-$ select generate series(0,1000) a,'helloworld'::varchar(50) b 
testDB-4 distributed by (a); 

SELECT 1001 

查 一 下 表 的 oid: 


testDB=# select oid from pg class where relname-'test appendonly'; 


23119 

(1 row) 

testDB-4 select oid,oid::regclass from pg class where relname-'test appendonly' or relname like '$23119$'; 
oid oid 


23122 | pg toast.pg toast 23119 index 
23119 test appendonly 
23124 pg aoseg.pg aoseg 23119 
23125 pg aoseg.pg aoseg 23119 index 


aoseg 表 的 字段 信息 : 


testDB-4 Nd pg aoseg.pg aoseg 23119 
?0? "pg aoseg.pg aoseg 23119" 


Column Type 
segno integer 
eof double precision 
tupcount double precision 
varblockcount double precision 
eofuncompressed | double precision 


这 个 表 的 每 个 字段 的 含义 在 Greenplum 的 文档 中 没有 ， 测 试 后 每 个 字段 信息 如 表 6-4 所 示 。 


表 6-4 pg aoseg 表 的 字段 信息 


4 f EL PA r E er M 


segno -个 编号 ， 在 pg_aoseg 表 ， 可 能 会 有 多 行 记 录 ， 通 过 segno 来 标识 
eof 压缩 后 文件 大 小 

tupcount 表 的 数据 量 

varblockcount 表 占 用 的 块 数量 

eofuncompressed 未 压缩 表 的 大 小 \ 


在 第 4 章 中 ， 我 们 介绍 了 一 个 函数 gp_dist_ random， 通 过 这 个 函数 ， 我 们 可 以 查询 子 节点 的 信息 ， 可 以 知道 Creenplum 底 层 每 个 数据 节点 的 数据 量 、 数 据 文 件 大 小 的 情况 ， 这 样 我 们 就 能 够 分 析 表 的 数 


据 分 布 情况 、 算 出 倾斜 率 等 。 


在 Greenplum 中 ， 提 供 了 两 个 函数 get_ao_compression_ratio 和 get_ ao distribution ， 用 于 查询 Appendonly 表 的 压缩 率 和 每 个 子 节点 数据 量 ， 其 实 这 两 个 函数 就 是 利用 pg_aoseg 这 个 表 来 查询 的 ， 
下 面 演示 一 下 这 两 个 函数 的 结果 。 


get ao compression ratio: 查询 压缩 表 的 压缩 率 ， 与 使 用 gp_dist_random 查 询 底层 pg_aoseg 前 缀 的 表 的 结果 是 一 样 的 。 


testDB=# select * from get ao compression ratio('test appendonly'); 
get ao compression ratio 


(1 row) 
testDB-4 select sum(eofuncompressed)/sum(eof) as compression ratio from gp dist random('pg aoseg.pg aoseg 23119'); 
compression ratio 


5.73555166374781 
(1 row) 


get ao distribution: 查询 每 个 子 节点 的 数据 量 。 


testDB=# select * from get ao distribution('test appendonly') order by segmentid; 
segmentid | tupcount 


4 | 181 
5| 178 


(6 rows) 
testDB-4 select gp segment id,tupcount from gp dist random('pg aoseg.pg aoseg 23119') order by gp segment id; 


gp segment id | tupcount 

———— 十 一 一 一 一 一 一 一 一 一 一 
0 161 
1 161 
2 159 
3 161 
4 181 
5 178 


(6 rows) 


&- rAppendonly&, FRI Wy GreenplumBSeRZg: get table count 和 get table info, 


get table count 是 获取 Appendonly 表 的 行 数 的 ，Appendonly 表 有 一 个 字段 用 于 保存 这 些 信息 。 这 个 函数 获取 表 的 行 数 快 ， 支 持 分 区 表 。 


testDB-4 select get table count('public.test appendonly'); 
get table count 


get table info 用 于 获取 更 加 详尽 的 表 的 信息 ， 有 表 的 行 数 、 大 小 、 数 据 倾斜 率 (最 大 节点 数据 量 / 平 均 节点 数据 量 ) 、 压 缩 率 ， 对 于 分 区 表 ， 既 有 汇总 信息 ， 也 有 每 个 单 表 的 数据 信息 。 
对 于 非 分 区 表 ， 就 只 有 一 行 数据 。 对 于 分 区 表 ， 第 一 行 则 是 所 有 分 区 的 汇总 数据 ， 其 他 是 每 一 个 分 区 的 具体 信息 ， 效 果 如 图 6-1 所 示 。 


testDBE-£ select * from get table info('public. test. appendonly'); 
tablename | subparname | tablecount | tablesize | prettysize | max div avg | compression ratio 


gd risus appendonly | 1001 | 4568 | 4568 bytes | 1.08491508492 | 5.,/3555166375 
L l'O0W) 


testDB-£ select * from get table info('public.hello partition"); | | | | 
tablename | subparname | tablecount | tablesize | prettysize | max div avg | compression ratio 


public.hello partition BESALLSSES | | 263680 | B. 543386 
public. hello partiti on p20101230 | 10000 | 1979? | 1. 006? B. 55247285887 
public.hello partition | p20101231 | 11000 | 43832 | | 1.00690909091 8.53987954006 
public.hello partition p20110101 | 11300 | 45008 d k | 1. 00672506372 B. 24331 /Q006754 
public.hello partition peoiioio2 | 11300 | 45024 $ K | 1. 006725663772 8. 34033404407 
public.hellao partition p20110103 | 11300 | 45008 | 1.00672566377 8.5 337006754 
有 on p20110104 | 11300 | 45016 | 1.00672566372 B. 54185178603 
rows 


图 6-1 get table info4£ Jf] ZO. 
创建 get_table_info 国 数 的 代码 如 下 : 


-- 该 函数 只 对 Appendon1y 表 有 效 


create type public.table info as ( 


tablename text -- 表 名 

,Subparname text -- 分 区 名 

,tablecount bigint =-- 表 的 行 数 

,tablesize bigint -- 表 大 小 〈 单 位 : 字 节 ) 

,prettysize text -- 格 式 化 大 小 输出 

,max div avg float -- 和 斜率 ,最 大 节点 数据 量 / 平 均 节 点 数据 量 
compression ratio float --Jk K 


); 

-- 将 regclass 类 型 转换 成 text 类 型 

CREATE or replace FUNCTION regclass2text(a regclass) 

RETURNS text 

AS $$ 
return a; 

$$ LANGUAGE plpythonu; 

-- 获 取 表 信息 的 函数 

CREATE or replace FUNCTION public.get table info(tablename text) 

RETURNS setof table info i i 


AS $$ 
def one table info (plpy, tablename, subparname,aosegname,privilege): 
aosegsgl-""; 


fplpy.info (privilege); 
if privilege--'1': 
aosegsqgl-''' 


select '$s' tablename,'$s' subparname, 
COALESCE (sum (tupcount) ::bigint,O) tablecount, 
COALESCE (sum (eof) : :bigint,0) tablesize, 
pg size pretty (COALESCE (sum(eof)::bigint,0)) prettysize, 
COALESCE (max (tupcount)::bigint,1)/(case when 
COALESCE (avg (tupcount),1.0)-0 then 1 else COALESCE (avg(tupcount),1.0) end) max div avg, 
COALESCE (sum (eofuncompressed),1)/(case when 
COALESCE (sum(eof),1.0)-0 then 1 else Cm pa a end) compression ratio 
from gp dist random('$s'); 
''"'$(tablename, subparname, aosegname) 
else : 
aosegsql-''' 
select '$s' tablename,'$s' subparname, 
0 tablecount, 
0 tablesize, 
'permission denied' prettysize, 
0 max div avg, 
0 compression ratio; 
'''$ (tablename, subparname) 
result rv-plpy.execute (aosegsql); 
fplpy.info(result rv[0]1); 
return result rv[0]; 
try: 
table name = tablename.lower().split('.')[1] 
table schema = tablename.lower().split('.')[0] 
except (IndexError): 
plpy.error('Please in put "tableschema.table name"'); 
#check version of database 
check version sql - """ 
select substring(version(), 'Database (.*) build') as version; 


~ 


rv = plpy.execute (check version sql); 
version = rv[0]['version']; i 
plpy.execute ("set enable seqscan-off"); 
fget table oid 
get table oid-''; 
if version»'3.4.0': 
get table oid = """ 
select a.oid,reloptions,b.segrelid,regclass2text (b. 

segrelid::regclass) aosegname, 

relstorage, 

case has table privilege (user,b.segrelid, 'select') 
when 't' then '1' else '0' end privilege 
from pg class a left join pg appendonly b on a.oid-b.relid 


where a.oid-'$s'::regclass """$(tablename) 


else: 
get table oid = """ select oid,reloptions,relaosegrelid, regclass2text (relaosegrelid::regclass) aosegname, 
relstorage , 
case has table privilege (user,relaosegrelid,'select') when 't' then '1' else '0' end privilege 
from pg class 
where oid-'$s'::regclass 
"""$(tablename) 
try: 
rv oid = plpy.execute (get table oid, 5) 
if not rv oid: E 
plpy.error ('Did not find any relation named "'+ tablename +'".') 
except (Error): 
plpy.error( 'Did not find any relation named "'+ tablename -*'".'); 


table oid = rv oid[0]['oid'] 


plpy.error(tablename + ' is not appendonly table ,this 


tition table 


if rv oid[0] ['relstorage']!-'a': 

*plpy.info('table oid'); 

fcheck if table is par 

check par table-"select count (*) 
parrelid-$s"$ (table oid); 


i 


parname,parruleord,pa.segrelid,regclass2tex! 
case has tab] 
tion 
temp] 
D pp.parrelid = $s 


else: 


parname,parruleord,pc.relaosegrel 


f version»'3.4.0': 


tablecount sqll=""" 
SELECT regclass2 


F 


function only support appendonly table'); 


from pg partition where 


text(pp.parrelid::regclass) tabname,prl. 


FROM pg parti! 


le privilege (user, 


t(pa.segrelid::regclass) aosegname , 


pa.segrelid,'select') when 't' then '1' else '0' end privilege 


Pp, pg par! 


WHERE pp.paris 
AN 
AN 
AN 


D pri.paroid 


late = false 


= pp.oid 


drelid 


D pa.relid-prl.parchil 
rder by prl.parruleorg; 


o 
% (table oid) 

tablecount sqll=""" 
SELECT regclass21 


tition . 


rule prl,pg appendonly pa 


text(pp.parrelid::regclass) tabname,prl. 


id,regclass2text( 


tab] 


= H 井 


Lecount sql 
select 


uin ( 


case has ta 


FROM pg partitio 


5i 


pec.relaosegrelid::regclass) aosegname , 


e privilege (user, 
Pp, pg parti 


n 


tion 


pe. relaosegrel 
rule prl,pg cl 


id,'select') when 't' then '1' else '0' end privilege 
ass pc 


WHERE pp.paris 


temp] 


Late alse 


AND prl.paroid 


AND pp.parrelid = $s 


.oid-prl.parchildre] 


= pp.oid 


id 


laosegrel 
rder by prl.pa 


id <> 0 
rruleord; 


mung ( 


table oid) 


| 2=" mn 


ioar 
6S 


tablename, tab] 


tab] 


rv-pl 
I 


else : 


['aosegname' 


$$ LANGUAGE 


[py .execut 
f rv[0] ['count']==1 


al=plpy.execute (tab 


e_oid) 
le); 


tab] 


result rv-[]; 
rv tmp-[]; 
totalcount-0 
totalsize-0 
unzipsize-0 
compression ratio=] 
for i in al: 

rv ao = one tab 


rv tmp.append(rv ao); 
] totalsize d 
totalcount 4 


totalsize 
totalcount = 
unzipsize 
totalsize--0: 
compression ra 


unz 
if 


lecount sql11); 


r 


le info (plpy, tablen 


tab 
[t 
tab 


t rv ao['! 
- rv ao 
t rv ao['! 


ipsize 4 


io-1; 


else : 


tablename,null as subparname,pg relation size($s) tablesize,pg size pretty(pg relation size($s)) prettysize; 
e oid,! 
te (check par 1 


ame,i['parname'],i['aosegnam'], str(i['privilege'])) 


lesize']; 
ablecount']; 
lesize']*rv ao['compression ratio']; 


compression ratio-unzipsize/totalsize; 


total count sql-""" 


select '$s' as tablename, '###ALL###' as subparname,$d as tablecount, 


$d as 
nul 


VON ( 


a2-pl 
result rv.append (a2 
tmp: 


for i in rv 


tablename, tota 


lpy.exec 


return result rv; 


[] 


table ini 


result rv- 


rv ao-one 


ute (total 


Fo (pl 


tablesize,pg s 
|l as max div avg, 
as compression ra 
lcount, totalsize,to 


| count sql) 
[0] ) 


-7 
uni 


L4 


result rv.append(i); 


py, tablename, '' 


],str 
resul 
return result rv; 
plpythonu; 


6.1.4 ”相关 数据 字典 


(rv oid[0] ['privil 


lege'1)); 


rv.append(rv ao); 


ize pretty($d::bigint) prettysize, 


tio; 
talsize, compression ratio) 


rv oid[0] 


在 Greenplum3.* 中 ，aoseg 表 的 信息 记录 在 pg_class 中 的 relaosegrelid 字 段 中 ， 可 用 以 下 SQL 进行 查询 : 


testDB-4 se] 


relaosegre] 


ect relaosegrelid í 


lid 


from pg class where relname = 'test appendonly'; 


在 Greenplum4.* 中 ，pg_class 的 relaosegrelidq 字 段 已 经 取消 了 ，aoseg 表 的 信息 保留 在 pg_appendonly 表 中 的 segrelid 字 段 中 。 


pg_appendonly 表 的 字段 描述 如 表 6-5 所 示 。 


表 6-5 pg_appondonly 表 字段 描述 


Y EU 前 XB 


relid SEWER oid 

blocksize 块 大 小 ，8SKB~2MB ， 默 认 是 32KB 

safefswritesize | 安全 写 人 数据 的 块 大 小 

compresslevel TEES 

checksum 是 否 有 校 验 ， 当 gp appendonly verify block checksums 参数 被 设置 成 true 的 时 候 ， 则 在 创建 一 


个 块 的 时 候 会 计算 校 验 码 ， 在 读 取 的 时 候 也 会 计算 校 验 码 ， 判 断 数 据 是 否 正确 ， 上 默认 是 关闭 的 


compresstype 数据 压缩 的 类 型 


columnstore 是 否 是 列 存储 
segrelid pg aoseg 表 的 oid 
segidxid pg aoseg 表 有 索引 的 oid 


Qua Greenplum 4.3 之 后 对 Appendonly 表 进行 了 优化 ， 以 前 的 Appendonly 表 只 能 插入 数据 ， 不 能 够 更 新 和 删除 数据 。Gteenplum4.3 之 后 ， 将 Appendonly 表 改 成 了 Append-Optimized 表 ， 用 法 跟 原 来 的 是 
一 样 的 ， 建 表 的 时 候 还 是 制定 appendonly=true。Append-Optimized 表 可 以 更 新 和 删除 数据 。 与 Heap 表 一 样 ，Gteenplum 在 Update 数 据 的 时 候 ， 其 实 都 是 将 原 有 的 数据 标志 位 删除 ， 然 后 新 增 了 一 条 数据 ， 所 以 
当 Append-Optimized 经 过 一 定时 间 的 更 新 之 后 ， 需 要 使 用 vacuum 命 令 对 其 空间 进行 回收 ， 用 法 与 Heap 表 的 一 样 。 


6.2 JFE 
Appendonly 表 还 有 一 种 特殊 的 形式 ， 那 就 是 列 存储 。 关 于 列 存储 的 相关 介绍 ， 读 者 可 以 参考 网 络 上 的 一 些 资 料 。 列 存储 主要 是 针对 数据 库 优化 的 一 种 数据 存储 类 型 。 


6.2.1 应用 场景 


列 存储 一 般 适 用 于 宽 表 ( 即 字 段 非常 多 的 表 ) 。 在 使 用 列 存储 时 ， 同 一 个 字段 的 数据 都 连续 保存 在 一 个 物理 文件 中 ， 所 以 列 人 存储 的 压缩 率 比 普通 压缩 表 的 压缩 率 要 高 很 多 ， 另 外 在 多 数字 段 中 筛选 其 中 
几 个 字段 时 ， 需 要 扫 摘 的 数据 量 很 小 ， 扫 摘 速 度 比 较 快 。 因 此 ， 列 存储 尤其 适合 在 宽 表 中 对 部 分 字段 进行 筛选 的 场景 。 


6.2.2 ”数据 文件 存储 特性 


列 存储 在 物理 上 人 存储， 一 个 列 对 应 一 个 数据 文件 ， 文 件 名 是 原文 件 名 加 上 .n (n 是 一 个 数字 ) 的 形式 来 表示 的 ， 第 一 个 字段 ，n=1， 第 二 个 字段 n=129， 以 后 每 增加 一 个 字段 ，n 都 会 增加 128。 


为 什么 每 增加 一 个 字段 ，n 不 是 递增 的 而 是 中 间 要 间隔 128 个 数字 呢 ?” 这 大 概 是 由 于 ， 在 Greenplum 中 ， 每 一 个 数据 文件 最 大 是 1GB， 如 果 一 个 字段 在 一 个 egment 中 的 数据 量 超过 了 1GB， 就 要 重新 
生成 一 个 新 的 文件 ， 每 个 字段 中 间 剩 余 的 这 127 个 数字 ， 就 是 预 留 给 字段 内 容 很 大 ， 单 个 文件 1GB 放 不 下 ， 拆 分 成 多 个 文件 时 ， 可 以 使 用 预 留 的 127 个 数字 为 数据 文件 编号 ， 如 xxxx.1 是 第 一 个 字段 的 数据 文 
件 ， 如 果 这 个 文件 达到 了 1GB， 则 产生 xxxx.2 数 据 文 件 ， 继 续 保 存 第 一 个 字段 的 数据 。 


从 这 个 物理 的 存储 特性 就 可 以 很 明显 地 看 到 列 存储 的 缺点 ， 那 就 是 会 产生 大 量 的 小 文件 ， 假 设 一 个 集群 中 有 30 个 节点 ， 我 们 建 了 一 张 有 100 个 字段 宽 表 的 ， 假 设 这 张 表 是 按照 每 天 分 区 的 一 张 分 布 表 ， 
保留 了 一 年 的 数据 ， 那 么 将 会 产生 的 文件 数 是 : 


30X100X365=1095000 
即 产 生 将 近 110 万 的 文件 ， 这 样 我 们 对 一 个 表 进行 DDL 操 作 就 会 比较 慢 ， 所 以 ， 列 存储 应 该 在 合适 的 场景 下 才能 使 用 ， 而 不 能 滥用 列 存 储 ， 否 则 会 得 不 偿 失 。 
6.2.3 ”如 何 使 用 列 存储 


列 存 储 的 表 必 须 是 appendonly 表 ， 创 建 一 个 列 存 储 的 表 只 需要 在 创建 表 的 时 候 ， 在 with 子 句 中 加 入 appendonly=true，ORIENTATION=column 即 可 。 一 般 appendonly 表 会 结合 压缩 一 起 使 用 ， 在 
with 子 句 中 增加 compresslevel= 5 启用 压缩 ， 如 下 : 


testDB-4 create table test column ao ( 

testDB (4 id bigint - i 

testDB (4 ,name varchar (128) 

testDB (4 ,Value varchar (128)) 

testDB-# with (appendonly=true,ORIENTATION=column,compresslevel=5) 
testDB-4 distributed by (id); 

CREATE TABLE 


6.2.4 性 能 比较 


这 里 我 们 将 简单 比较 一 下 列 存 储 和 普通 压缩 表 在 性 能 上 的 区 别 ， 让 大 家 对 列 存储 有 一 个 直观 的 认识 ， 和 希望 可 以 通过 这 个 比较 ， 使 读者 对 是 否 需要 使 用 列 存储 有 一 个 大 概 的 印象 ， 但 是 由 于 硬件 环境 和 测 
试 的 业务 场景 对 测试 的 结果 有 很 大 的 影响 ， 故 读者 应 该 根据 自己 具体 的 业务 场景 和 集群 环境 进行 测试 ， 以 获取 比较 真实 的 结果 数据 。 


由 于 列 存储 主要 应 用 在 宽 表 上 ， 故 这 次 测试 都 是 针对 字段 比较 多 的 表 。 下 面 对 两 个 不 同 的 数据 进行 比较 ， 对 于 每 个 数据 ， 除 了 表 的 存储 类 型 ， 其 他 包括 字段 数 、 字 段 类 型 和 数据 全 部 一 模 一 样 。 通 过 
count 具 体 字 段 (数据 库 需要 检查 字段 是 否 非 空 ) ， 可 以 使 测试 的 字段 的 数据 文件 都 被 扫描 ， 测 试 的 查询 SQL 如 下 : 


select count (coll),count (col2),http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... from tablename; 


测试 数据 1 


纯 随机 数据 ， 总 共有 121 个 字段 ，1 个 int 字 段 作 为 1D， 其 他 字段 都 是 字符 串 类 型 ， 字 符 串 字段 的 内 容 都 是 随机 的 ， 值 是 由 md5 (random()) 生成 的 ， 数 据 非 常 均匀 且 随 机 。 数 据 量 为 ?00000， 表 的 压缩 


属性 都 是 compresslevel=5。 比 较 结果 如 表 6-6 所 示 。 


表 6-6 普通 压缩 表 与 列 存储 测试 结果 1 


Ape 
字段 数 与 普通 表 相 同 
压缩 率 KEREI 实际 压缩 率 =1.7 
压缩 后 大 小 1116 MB 
查询 10 个 字段 消耗 时 间 4278.839 ms 423.139 ms 
查询 20 个 字段 消耗 时 间 4072.795 ms 811.920 ms 
查询 50 个 字段 消耗 时 间 4923.737 ms 2101.356 ms 


查询 全 部 字段 消耗 时 间 4999.031 ms 5247.297 ms 
count(*) 3909.924 ms 174.418 ms 


通过 表 6-6 可 以 看 出 : 

@ 完 全 随机 的 数据 压缩 率 比较 低 ， 使 用 两 种 方式 的 压缩 结果 差不多 。 

@ 当 只 查询 表 的 数据 量 的 时 人 息 ， 普 通 压缩 表 需 要 全 表 扫 描 ， 但 是 列 存储 只 需要 查询 其 中 一 个 字段 ， 速 度 非常 快 。 

@ 随 着 查询 字段 的 增加 ， 普 通 压 缩 表 查询 的 速度 基本 上 变动 不 大 ， 因 为 扫描 的 数据 量 没有 变化 。 而 列 存储 则 随 着 查询 的 字段 增加 ， 消 耗 时 间 增 长 明显 。 


@ 在 测试 的 时 候 笨 贷 在 于 磁盘 的 |O， 这 是 因为 测试 集群 磁盘 性 能 较 差 。 在 CPU 消 耗 上 ， 列 存储 的 消耗 略 大 于 普通 表 的 消耗 。 
测试 数据 2 


这 是 一 个 实际 业务 场景 的 表 ， 主 要 是 保存 商品 描述 信息 的 表 ， 字 段 数 为 98 个 ， 数 据 类 型 有 date、text、varchar、int、numeric， 数 据 量 为 3100 万 ， 表 的 压缩 属性 都 是 compresslevel=5。 


表 6-7 普通 压缩 表 与 列 存储 测试 结果 2 


列 存储 
Hz o SPRIE —5.98 
压缩 后 大 小 \ 10 GB 
查询 10 个 字段 消耗 时 间 172707.491 mas 10817.341 ms 
查询 20 个 字段 消耗 时 间 19811.137 ms 
查询 50 个 字段 消耗 时 间 217994.797 ms 49127.229 ms 
查询 全 部 字段 消耗 时 间 251559.494 ms 125667.730 ms 
count(*) 161226.188 ms 2931.648 ms 


用 这 两 种 数据 方式 加 载 数据 时 都 使 用 外 部 表 ， 加 载 时 的 瓶颈 在 于 文件 服务 器 的 网 卡 ， 所 以 使 用 这 两 种 方式 进行 数据 加 载 的 速度 都 差不多 。 
通过 表 6-7 的 结果 可 以 看 出 ， 测 试 的 结果 与 测试 数据 1 的 结果 大 致 相同 ， 但 是 还 有 一 些 区 别 ， 主 要 是 : 
@ 测 试 的 数据 是 真实 的 数据 ， 每 个 字段 的 内 容 都 会 有 些 相 似 ， 当 每 个 字段 的 数据 比较 相似 时 ， 使 用 列 存储 ， 这 样 在 压缩 文件 时 ， 可 以 获得 更 高 的 压缩 率 ， 节 省 磁盘 的 空间 占用 。 


@ 扯 颈 还 是 磁盘 IO， 由 于 列 存储 有 更 好 的 压缩 率 ， 所 以 在 查询 全 部 字段 的 情况 下 ， 列 存储 消耗 的 时 间 还 是 比 普通 压缩 表 小 很 多 的 ， 不 像 测 试 数据 1， 由 于 压缩 率 差不多 ， 碍 询 所 有 字段 的 性 能 也 差 不 


6.3 ”外 部 表 高 级 应 用 
对 于 数据 库 应 用 ， 数 据 导入 导出 是 必 不 可 少 的 ， 在 Greenplum 中 ， 提 供 了 外 部 表 方便 用 户 对 数据 进行 导入 导出 。 本 节 将 介绍 外 部 表 的 原理 及 外 部 表 的 一 些 高 级 特性 。 


6.3.1 ”外 部 表 实现 原理 


本 地 模式 数据 是 在 Master 所 在 的 主机 上 的 ,与 使 用 copy 命 令 导入 数据 一 样 ， 都 要 通过 Master 传 到 每 个 Segment 上 。 两 者 在 性 能 上 差别 不 大 ， 原 理 及 使 用 方法 也 都 比较 简单 ， 这 里 就 不 详细 描述 了 。 


在 第 2 章 中 ， 我 们 已 经 介绍 gpfdist 的 架构 ， 其 实 gpfdist 也 可 以 看 做 一 个 http 服 务 ， 当 我 们 启动 gpfdist 的 时 候 ， 可 以 用 wget 命 令 去 下 载 gpfdist 的 文件 ， 将 创建 外 部 表 命 令 时 使 用 的 url 地 址 中 的 gpfdist 
换 成 http 即 可 ， 如 : 


wget http://10.20.151.59:8081/inc/l.dat -O 2.dat 


当 查 询 外 部 表 时 ， 所 有 的 Segment 都 会 连 上 gpfdist， 然 后 gpfdist 将 数据 随机 分 发 给 每 个 节点 。 


gpfdist 的 架构 如 图 6-2 所 示 。 
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图 6-2 ”Greenplum 外 部 表 架 构 
1.gpfdist 的 工作 流程 
1) 启动 gpfdist， 并 在 Master 上 建 表 。 表 建 好 之 后 并 没有 任何 的 数据 流动 ， 只 是 定义 好 了 外 部 表 的 原 数 据 信 息 。 
2) 将 外 部 表 插 入 到 一 张 Greenplum 的 物理 表 中 ， 开 始 导 入 数据 。 
3) Segment 根 据 建 表 时 定义 的 gpfdist url 个 数 ， 启 动 相同 的 并 发 到 gpfdist 获 取 数 据 ， 其 中 每 个 Segment 节 点 都 会 连接 到 gpfdist 上 获取 数据 。 
4) gpfdist 收 到 Segment 的 连接 并 要 接收 数据 时 开始 读 取 文件 ， 顺 序 读 取 文件 ， 然 后 将 文件 拆 分 成 多 个 块 ， 随 机 抛 给 Segment。 


5) 由 于 gpfdist 并 不 知道 数据 库 中 有 多 少 个 Segment， 数 据 是 按照 哪个 分 布 键 拆 分 的 ， 因 此 数据 是 随机 发 送 到 每 个 segment 上 的 ， 数 据 到 达 Ssegment 的 时 间 基 本 上 是 随机 的 ， 所 以 外 部 表 可 以 看 成 是 一 
张 随 机 分 布 的 表 ， 将 数据 插入 到 物理 表 的 时 候 ， 需 要 进行 一 次 重 分 布 。 


6) 为 了 提高 性 能 ， 数 据 读 取 与 重 分 布 是 同时 进行 的 ， 当 数据 重 分 布 完 成 后 ， 整 个 数据 导入 流程 结束 。 
2.gpfdist 最 主要 的 功能 
@@ 负 载 均衡 : 每 个 Segment 分 配 到 的 数据 都 是 随机 的 ， 所 以 每 个 节点 的 负载 都 非常 均衡 。 


@ 并 发 读 取 ， 性 能 高 : 每 人 台 Segment 都 同时 通过 网 卡 到 文件 服务 器 获取 数据 ， 并 发 读 取 ， 从 而 获取 了 比较 高 的 性 能 。 相 对 于 copy 命 令 ， 数 据 要 通过 Master 流 入 ， 使 用 外 部 表 就 消除 了 Master 这 个 单 点 


3. 如 何 提 高 gpfdist 性 能 ? 

想 提 高 一 个 工具 的 性 能 ， 首 先 要 了 解 这 个 工具 使 用 的 瓶颈 在 哪里 。 对 于 数据 导入 ， 衡 量 性 能 最 重要 的 就 是 数据 分 发 时 的 吞吐 ， 其 中 有 两 个 地 方 容易 成 为 瓶 须 。 

(1) 文件 服务 器 

一 般 文 件 服务 器 比较 容易 出 现 瓶 也 ， 因 为 所 有 的 Segment 都 连接 到 这 个 节点 上 获取 数据 ， 所 以 如 果 文 件 服务 器 是 单机 的 ， 那 么 就 很 容易 在 磁盘 IO 和 网 卡 上 出 现 瓶 颈 。 
(2) segment 节点 


相对 来 说 ，Segment 的 机 器 数 一 般 会 比 文件 服 务 器 多 很 多 ， 而 且 网 卡 性 能 也 比较 好 ， 因 此 Segment 一 般 不 容易 出 现 瓶 颈 。 当 Segment 出 现 瓶 颈 的 时 候 ， 可 能 不 只 是 数据 导入 出 现 瓶 颈 ， 应 该 是 整个 数 
据 库 的 性 能 都 已 经 出 现 了 瓶颈 。 


对 于 文件 服务 器 ， 当 磁盘 IO 出 现 瓶 颈 的 时 候 ， 我 们 可 以 使 用 磁盘 阵列 来 提高 磁盘 的 吞吐 能 力 ， 如 果 条 件 允 许 ， 还 可 以 采用 分 布 式 文件 系统 来 提高 整体 的 性 能 ， 例 如 MooseFs 等 。 对 于 网 卡 出 现 瓶 颈 ， 第 
一 种 方法 是 更 换 网 卡 为 万 兆 网 卡 ， 但 是 这 种 方法 还 需要 各 环节 的 网 络 环境 满足 条 件 ， 如 交换 机 支持 等 ， 成 本 较 高 ， 第 二 种 方法 就 是 通过 多 网 卡 机 制 来 保证 。 


如 图 6-3 所 示 ， 就 是 多 网 卡 的 一 个 例子 ,我 们 将 文件 拆 分 成 多 个 文件 ， 并 启动 多 个 gpfdist 分 别 读 取 不 同 的 文件 ， 然 后 将 gpfdist 绑 定 到 不 同 的 网 卡 上 以 提高 性 能 。 
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图 6-3 ”外 部 表 多 网 卡 并 行 加载 架 构图 


在 创建 表 的 时 候 指定 多 个 gpfdist 的 地 址 ， 例 如 : 


CREATE EXTERNAL TABLE table name 


( column name data type [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] | LIKE other table ) 
LOCATION ('gpfdist://filehostipl[:portl]/file patternl', 
'gpfdist://filehostip2[:port2]/file pattern2', 
'gefdist://filehostip3[:port3]/file pattern3', 
'gpfdist://filehostip4[:port4]/file pattern4' ) 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/te 


当然 ， 我 们 也 可 以 只 启动 一 个 gpfdist， 但 是 通过 不 同 的 ip 连接 到 gpfdist 上 ， 这 样 读 取 文 件 的 gpfdist 只 有 一 个 ， 不 能 实现 IO 的 并 发 ， 但 是 网 卡 却 可 以 使 用 多 张 ， 从 而 来 消除 单 网 卡 的 瓶颈 。 
Qin 如何 控 制 并 发 度 ? 
可 以 在 postgtresql.conf 中 修改 参数 gp_external_max_segs， 默 认 是 64， 这 个 参数 用 于 控制 同时 有 多 少 个 Segment 连 接 到 gpfdist 上 。 

6.83.2 ”可 写 外 部 表 


前 面 介绍 的 是 只 读 外 部 表 ， 在 Greenplum 中 ， 还 有 一 种 可 写 外 部 表 。 


语法 如 下 : 


CREATE WRITABLE EXTERNAL TABLE table name 
( column name data type [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] | LIKE other table ) 
LOCATION ('gpfdist://outputhost[:port]/filename' [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]) 
| ('gphdfs://hdfs host[:port]/path') 

FORMAT 'TEXT' 2 
[( [DELIMITER [AS] 'delimiter'] 
[NULL [AS] 'null string'] 
[ESCAPE [AS] 'escape' | 'OFF'] )] 
| 'CSV' 


E [AS] 'quote'] 
[DELIMITER [AS] 'delimiter'] 
[AS] 'null string'] 
[FORCE QUOTE column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]] ] 
[ESCAPE [AS] 'escape'] )] 
[ ENCODING 'write encoding' ] 


[ DISTRIBUTED BY (column, [ http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ] ) | DISTRIBUTED RANDOMLY ] 


在 语法 上 可 写 外 部 表 与 普通 外 部 表 主 要 有 两 个 地 方 不 一 样 : 

可 写 外 部 表 没有 错误 表 ， 不 能 指定 允许 有 多 少 行 数据 错误 。 因 为 外 部 表 的 数据 一 般 是 从 数据 库 的 一 张 表 中 导出 的 ， 格 式 肯 定 是 正确 的 ， 一 般 不 会 有 异常 数据 。 
@ 可 写 外 部 表 在 建 表 时 可 以 指定 分 布 键 ， 如 果 不 指定 分 布 键 ， 默 认为 随机 分 布 (distributed randomly) . 

下 面 将 通过 一 个 例子 (4 张 表 ， 如 表 6-8 所 示 ) 介绍 下 分 布 键 是 怎么 用 的 。 


A68 ”分 布 键 不 同 的 外 部 表 


* 名 


分 布 刍 


test001 id 
test001 wextl randomly 
test001 wext2 id 
test001 wext3 name 


查看 执行 计划 : 


testDB-4 create writable external table test001 wextl(like test001) location('gpfdist://10.20.151.7:8888/test001 wextl.dat') format 'text' distributed randomly ; 

CREATE EXTERNAL TABLE E E 

testDB=# explain insert into test001 wextl select * from test001; 

Insert (slice0; segments: 6)  (rows-16667 width-9) 

-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1138. 
-> Seq Scan on test001  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1138.00 rows-16667 width=5 


(3 rows) 
testDB-4 explain insert into test001 wext2 select * from test001; 
Insert (slice0; segments: 6)  (rows-16667 width-9) 
-> Seq Scan on test001  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1138.00 rows-16667 width-9) 
(2 rows) 
testDB-4 explain insert into test001 wext3 select * from test001; 
Insert (slice0; segments: 6)  (rows-16667 width-9) 
-> Redistribute Motion 6:6  (slicel; segments: 6)  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/..1138. 
Hash Key: test001.name E 
-> Seq Scan on test001  (cost-0.00http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0EBPS/Text/..1138.00 rows=16667 width= 


(4 rows) 


可 以 看 到 ， 随 机 分 布 及 分 布 键 与 原 表 不 一 致 都 会 导致 数据 重 分布 : 数据 先 重 新 按照 规则 打 散 到 每 一 个 egment 上 ， 然 后 再 并 发 写 入 gpfdist 中 。 因 此 ， 在 使 用 外 部 表 的 时 候 ， 尽 量 采 用 与 原 表 一 致 的 分 布 


使 用 可 写 外 部 表 的 注意 事项 : 
@@ 可 写 外 部 表 不 能 中 断 (truncate) 。 当 我 们 将 数据 写 入 可 写 外 部 表 时 ， 如 果 可 写 外 部 表 中 途 断 开 了 ， 要 想 重 新 运行 必须 手动 将 原 有 的 文件 删除 ， 否 则 那 一 部 分 数据 会 重复 。 
@ 可 写 外 部 表 指定 的 分 布 键 应 该 与 原 表 的 分 布 键 一 致 ， 避 免 多 余 的 数据 重 分 布 。 


@gpfdist 必 须 使 用 Greenplum 4.x 之 后 的 版 本 。 可 写 外 部 表 是 Greenplum 4.x 之 后 加 入 的 新 功能 ， 在 其 他 机 器 上 启动 gpfdist， 只 需要 将 $GPHOME/bin/gpfdist 复 制 过 去 即 可 。 
6.3.3 ”HDFS 外 部 表 


Greenplum 可 以 直接 读 取 HDFS 文 件 ， 这 样 可 以 将 Greenplum 和 HDFS 整 合 在 一 起 ， 将 Greenplum 作 为 一 个 计算 节点 ， 计 算 后 的 数据 可 以 直接 写 入 到 HDFS 中 ， 提 供 对 外 的 服务 。HDFS 外 部 表 的 架构 图 
如 图 6-4 所 示 。 
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Qi HDFS hèk X Greenplum 4.x 版 本 才 加 入 的 新 功能 ， 在 第 3 章 中 也 介绍 到 了 这 方面 的 内 容 。 


本 节 将 介绍 如 何 使 用 HDFS 外 部 表 ， 但 由 于 笔者 很 少 用 到 HDFS 外 部 表 ， 因 此 这 里 只 是 简单 介绍 一 下 如 何 使 用 ， 具体 的 一 些 细节 以 及 性 能 ,需要 读者 自行 测试 。Greenplum 4.1 和 Greenplum 4.2 以 上 版 
本 ， 在 使 用 HDFS 外 部 表 的 时 候 用 法 变化 了 ， 下 面 将 对 这 两 个 版 本 的 HDFS 外 部 表 分 开 介 绍 。 


1.Greenplum 4.1 

在 Greenplum 4.1 上 安装 、 配 置 HDFS 外 部 表 的 步骤 如 下 : 

1) 在 所 有 Segment 上 安装 Java1.6 或 以 上 版 本 。 

2) 在 所 有 Segment 上 安装 Hadoop 0.21.0 或 者 0.20.1。 

如 果 使 用 的 是 Hadoop 0.21.0， 那 么 直接 跳 到 步骤 3) ， 如 果 使 用 的 是 Hadoop 0.20.1， 那 么 还 需要 以 下 额外 的 步骤 : 
- 将 8GPHOME /bin 目 录 下 的 HDFSReadet.class 和 HDFSWtiter.class 重 命名 成 *.class.0.21.0。 

- 将 bin 目 录 下 的 *.class.0.20.1 的 后 级 .0.20.1 去 掉 。 


3) 在 所 有 的 Segment 节 点 上 在 ~/.bashrc 中 设置 以 下 的 环境 变量 。 


JAVA HOME: Java 的 安装 目录 
HADOOP HOME: Hadoop 的 安装 目录 
HADOOP VERSION: Hadoop 的 版 本 


4) 在 Greenplum 中 向 用 户 赋予 可 以 创建 gphdfs 外 部 表 的 权限 ，readable 为 可 读 权限 ，writable 为 可 写 权限 ， 如 : 


ALTER ROLE hdfsadmin CREATEEXTTABLE 
(type= 'writable', protocol-'gphdfs'); 


5) 在 Hadoop 对 Greenplum 操 作 系 统 用 户 配置 响应 的 权限 。 
创建 HDFS 外 部 表 的 语法 与 普通 外 部 表 的 语法 基本 一 致 ， 就 是 将 url 头 改写 成 gphdfs， 将 hosname 和 端口 改 成 hdfs 对 应 的 hostname 和 端口 。 


下 面 这 个 示例 使 用 的 是 Hadoop 0.20.2 版 本 ，~/.bashrc 的 参数 配置 如 下 : 


JAVA HOME-/hadoop/jdk1.6.0 20 

HADOOP HOME-/home/gpadmin/hadoop-0.20.2 
PATH=$PATH: $JAVA HOME/bin/:$HADOOP HOME/bin 
HADOOP VERSION-0.20.1 


export 
export 
expor 
export 


CEA (Tct 


每 一 台 机 器 上 的 $GPHOME/bin 目 录 下 的 所 有 .class 都 更 换 成 0.20.1 版 本 的 。 


现在 ,将 HDFS 中 的 一 个 文件 导入 到 Greenplum 中 ， 文 件 的 内 容 如 下 : 


$ hadoop fs -cat /data/gpext/1.dat 
101, tom 

102, cat 

103, marry 

104, john 


首先 ， 创 建 外 部 表 : 


testDB=# CREATE EXTERNAL TABLE hdfs test ( id int,name varchar(128) ) 
testDB-4 LOCATION ('gphdfs://10.20.151.7:9000/data/gpext/1.dat') 
testDB-4 FORMAT 'TEXT' (DELIMITER ',"); 


第 一 次 执行 时 ， 报 如 下 错误 : 


testDB-4 select * from hdfs test; 
ERROR: external table hdfs test command ended with error. sh: java: command not found  (seg4 slicel sdw3:33000 pid-14991) 
DETAIL: Command: gphdfs://10.20.151.7:9000/data/gpext/1.dat 


发 现 系统 没有 找到 java 的 命令 ， 这 是 由 于 刚刚 配置 的 JAVA_HOME 的 环境 变量 还 没有 生效 ， 需 要 重启 数据 库 ， 让 数据 库 重新 获取 环境 变量 。 重 启 数 据 库 使 用 命令 gpstop-afr。 


重启 数据 库 后 ， 操 作 正 常 : 


testDB=# select * from hdfs test; 
id | name 


102 | cat 
(4 rows) 


创建 可 写 外 部 表 : 


testDI 


D EATE writable EXTERNAL TABLE hdfs test write ( id int,name varchar (128) ) 
testDl ( ://10.20.151.7:9000/data/gpext/hdfs test write!) 
testDl RMAT 'TEXT' (DELIMITER ','); i 
CREATE EXTE] BLE 
testDl nsert into hdfs test write select * from hdfs test; 
NSER 


在 写 入 外 部 表 的 时 人 息 ，Greenplum 在 Hadoop 上 创建 了 一 个 文件 夹 保存 一 个 表 的 数据 ， 下 面 验 证 数据 是 否 已 经 正确 写 入 : 


$ hadoop fs -ls /data/gpext/hdfs test write 
Found 4 items 


-rw-r--r-- 3 gpadmin supergroup 8 2012-02-27 10:40 /data/gpext/hdfs test _ write/0 1330309393-0000000013 
-rw-r--r-- 3 gpadmin supergroup 8 2012-02-27 10:40 /data/gpext/hdfs test write/1 1330309393-0000000013 
-rw-r--r-- 3 gpadmin supergroup 9 2012-02-27 10:40 /data/gpext/hdfs test write/4 1330309393-0000000013 
-rw-r--r-- 3 gpadmin supergroup 10 2012-02-27 10:40 /data/gpext/hdfs test write/5 1330309393-0000000013 
$ hadoop fs -cat /data/gpext/hdfs test write/* 

102,cat 

101,tom 

104, john 

103,marry 


当 这 个 外 部 表 的 数据 不 断 追 加 的 时 人 息 ，Greenplum 会 在 这 个 文件 夹 下 创建 新 的 文件 来 存放 这 些 新 的 数据 。 将 外 部 表 删 除 的 时 人 息 ， 并 不 会 删除 对 应 的 HDFS 文 件 ， 在 使 用 过 程 中 一 定 要 留意 这 一 点 ， 需 要 


定期 删除 这 些 已 经 没 用 的 文件 。 
2.Greenplum 4.2 及 以 上 版 本 
在 Greenplum 4.2 及 以 上 版 本 安装 、 配 置 HDFS 外 部 表 的 步骤 如 下 : 
1) 在 所 有 Segment 上 安装 Java1.6 或 以 上 版 本 。 
2) Greenplum 数 据 库 包括 以 下 与 Hadoop 相 关 版 本 : 
. Prvotal HD1.0 (gphd-2.0) : Hadoop 2.0 版 本 。 
: Greenplum HD (gphd-1.0, gphd-1.14egphd-1.2) : 默认 版 本 ， 使 用 其 他 组 件 可 以 通过 设置 gp_hadoop_target_vetsion 这 个 参数 进行 切换 。 
- Greenpum MR 组 件 (gpmr-1.0 和 gpmr-1.2) : Greenpum 版 本 的 Mapreduce。 
Cloudera Hadoop 版 本 连接 (cdh3u2 和 cdh4.1) : Cloudera 版 本 的 Hadoop。 
3) 需要 读者 自己 安装 Hadoop (Greenplum 只 支持 以 上 所 列 的 版 本 ) ， 安 装 之 后 ， 需 确保 Greenpum 的 系统 用 户 有 读 和 执行 Hadoop 相 关 lib 库 的 权限 。 
4) 设置 环境 变量 JAVA_ HOME、HADOOP HOME。 
5) 设置 gp_hadoop target version 和 gp_hadoop_home 参 数 如 表 6-9 所 示 。 


表 6-9 ”gp_hadoop_target_version 和 gp_hadoop_home 参 数 设置 


字段 名 fii 述 
gp hadoop target version 选择 其 中 一 个 hadoop 版 本 : 
gphd-1.0 
gphd-1.1 


gphd-1.2 
gphd-2.0 
gpmr-1.0 
gpmr-1.2 
cdh3u2 
cdh4.1 


ep hadoop home 跟 HADOOP HOME 配置 一 样 


笔者 采用 Hadoop 2.0 版 本 进行 测试 ， 所 以 参数 设置 如 下 : 


gp hadoop target version-'gphd-2.0' 
gp hadoop home-'/home/hadoop/soft/hadoop-2.0.0' 


6) 重启 数据 库 。 
在 使 用 HDFS 外 部 表 的 时 人 息 ， 有 两 层 权 限 关 系 : 


: 对 Greenplum 的 HDFS 的 使 用 用 户 赋予 SELECT 和 INSERT 权 限 : 


testDB=# GRANT INSERT ON PROTOCOL gphdfs TO gpadmin; 
GRANT 
testDB-4 GRANT SELECT ON PROTOCOL gphdfs TO gpadmin; 
GRANT 


: 确保 Greenplum 对 应 的 OS 用 户 有 Hadoop 上 HDFS 文 件 的 读 写 权限 。 
Greenplum 在 HDFS 上 支持 三 种 文件 格式 : 

.Text， 文 本 格式 ， 同 时 支持 读 写 ， 跟 介绍 Greenpum 4.1 版 本 的 HDFS 外 部 表 一 样 。 

gphdfs_impbort， 只 支持 只 读 外 部 表 。 


gphdfs_export， 只 支持 可 写 外 部 表 。 


创建 外 部 表 进 行 读 取 : 
testDB=# CREATE readable EXTERNAL TABLE hdfs test read ( id int,name varchar(128) ) 
testDB-4 LOCATION ('gphdfs://10.20.151.7:9000/data/gpext/hdfs test.dat') 
testDB-4 FORMAT 'TEXT' (DELIMITER ','); 
CREATE EXTERNAL TABLE 
testDB-$ select * from hdfs test read; 
id | name 
i 十 一 一 一 一 一 一 一 
104 | john 
101 | tom 
103 | marry 
102 | cat 
(4 rows) 


在 $GPHOME/lib/hadoop 目 录 下 ，Greenplum 自 带 了 各 种 Hadoop 版 本 的 jar 包 ， 这 些 包 中 定义 了 gphdfs_ importi&gphdfs export 的 数据 格式 。 


AE. 


gphd-1.1 


NULL 


$ ls SGPHOME/lib/hadoop/ 
cdh3u2-gnet-1.1.0.0. jar gphd-1.0-gnet-1.0.0.1.jar Jgphd-1.2-gnet-1.1.0.0.jar gpmr-1.0-gnet-1. 
cdh4.1-gnet-1.2.0.0.jar gphd-1.1-gnet-1.1.0.0.jar gphd-2.0.2-gnet-1.2.0.0.jar gpmr-1.2-gnet-1. 


.l.jar hadoop env.sh 
.1.jar 


[e Ne») 
[e Ne») 


Greenplum 在 读 写 这 种 格式 的 时 候 ， 需 要 自己 编写 MapReduce 任 务 。Greenplum 4.3 的 管理 员 手 册 中 有 对 这 些 格式 的 解析 ， 有 兴趣 的 读者 可 以 自己 看 下 ， 这 里 就 不 讲解 了 。 


6.3.4 可 执行 外 部 表 


普通 外 部 表 其 实 可 以 理解 成 可 执行 外 部 表 的 一 种 特例 ， 利 用 可 执行 外 部 表 的 功能 也 可 以 实现 一 个 类 似 gpfdist 并 发 加 载 数据 的 工具 。 


可 执行 外 部 表 的 语法 如 下 : 


CREATE [READABLE] EXTERNAL WEB TABLE table name 
( column name data type [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] | LIKE other table ) 

LOCATION ('http://webhost[:port]/path/file' [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach : ebook/uncompressed/14936/ORBPS/Text/ . . .]) 
| EXECUTE 'command' [ON ALL 
MASTER 
number of segments 
HOST [" segment hostname'] 
SEGMENT segment id ] 


[( [HEADER] 
[DELIMITER [AS] 'delimiter' | 'OFF'] 
[NULL [AS] 'null string'] 
[ESCAPE [AS] 'escape' | 'OFF'] 
[NEWLINE [ AS ] 'LF' | 'CR' | 'CRIFE'] 
[FILL MISSING FIELDS] )] 
| "CSV 
[( [HEADER] 
[QUOTE [AS] 'quote'] 
[DELIMITER [AS] 'delimiter'] 
[NULL [AS] 'null string'] 
[FORCE NOT NULL column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...]] 
[ESCAPE [AS] 'escape'] E 
[NEWLINE [ AS ] 'LF' | 'CR' | 'CRIFE'] 
[FILL MISSING FIELDS] )] 
[ ENCODING 'encoding' ] 
[ [LOG ERRORS INTO error table] SEGMENT REJECT LIMIT count 
[ROWS | PERCENT] ] 加 


f£gp toolkit (Grenplum 4 中 自 带 的 一 个 工具 集 ) 中 就 有 可 执行 外 部 表 的 例子 ， 可 以 查询 所 有 Segment 的 日 志 信息 。 


该 外 部 表 的 定义 如 下 ， 读 者 可 以 参考 着 写 。 


CREATE EXTERNAL WEB TABLE gp toolkit. gp log segment ext 


logtime timestamp with time zone, 
loguser text, 
logdatabase text, 


EXECUTE E'cat $GP SEG DATADIR/pg log/*.csv' 
FORMAT 'CSV' (DELIMITER AS ',' NULL AS '' QUOTE AS '"'); 


在 使 用 外 部 表 的 时 候 ， 每 个 egment 的 参数 可 能 会 略 有 不 同 ， 或 者 是 在 脚本 中 需要 获取 一 些 系统 的 参数 。 表 6-10 是 Greenplum 自 带 的 一 些 常 见 参数 ， 可 以 供 脚 本 使 用 。 


表 6-10 “可 执行 外 部 表 常 用 参数 


参数 变量 Tin yh 
$GP DATABASE 数据 库 名 
$GP DATE 外 部 表 执 行 的 日 期 
$GP MASTER HOST Master 的 hostname 
$GP MASTER PORT Master 的 端口 
$GP SEG DATADIR Segment 的 数据 目录 
$GP SEG PG CONF Segment 的 postgresql.conf 这 个 文件 位 置 
$GP SEG PORT Segment 的 端口 
$GP SEGMENT COUNT primary segment 的 个 数 
(ZÈ) 
参数 变量 描 xt 
$GP SEGMENT ID Segment 的 dbid i's 
SGP SESSION ID 外 部 表 SQL 的 sess id 
$GP SN 个 序列 名 
SGP TIME 外 部 表 执 行 的 时 间 
$GP USER 数据 库 用 户 4 


$GP XID 事务 ID 


如 果 是 自 定义 的 一 些 肢 本， 那么 这 些 脚本 在 每 一 个 Segment 上 都 必须 部 署 好 。 同 样 的 ， 外 部 表 也 支持 可 写 可 执行 外 部 表 ， 脚 本 通过 标准 输入 流 来 获取 数据 。 下 面 举 一 个 最 简单 的 例子 ， 将 数据 直接 输出 
到 文本 中 。 


testDB-4 CREATE WRITABLE EXTERNAL WEB TABLE wext web (output text) 
testDB-4 EXECUTE 'cat >> /home/gpadmin/data/wext web SGP SEGMENT ID' 
testDB-4 FORMAT 'TEXT' a B B a 
testDB-# DISTRIBUTED RANDOMLY; 

CREATE EXTERNAL TABLE 

testDB=# insert into wext web select sname from student; 

NSERT 0 9 u 


可 以 查询 每 个 节点 生成 的 文件 ， 不 同 Segment 的 数据 在 该 segment 的 dbid 对 应 的 文件 中 。 


=> ll 

[sdw3] total 8 

[sdw3] -rw------- 1 gpadmin gpadmin 10 Feb 27 13:57 wext web 4 
[sdw3] -rw------- 1 gpadmin gpadmin 6 Feb 27 13:57 wext web 5 
[sdw1] total 8 

[sdwl] -rw------- 1 gpadmin gpadmin 9 Feb 27 13:57 wext web 0 
[sdwl] -rw------- 1 gpadmin gpadmin 6 Feb 27 13:57 wext web 1 
[sdw2] total 8 

[sdw2] -rw------- 1 gpadmin gpadmin 5 Feb 27 13:57 wext web 2 
[sdw2] -rw------- 1 gpadmin gpadmin 12 Feb 27 13:57 wext web 3 


64 BENK 5 Mm 


本 节 将 介绍 Greenplum 中 的 自 定 义 函 数 ， 主 要 涉及 pgsql、plpython 和 C 语 言 ， 具 体 将 介绍 普通 UDF (用 户 自 定义 函数 ) 、 聚 合 函 数 、 一 变 多 函数 。 由 于 这 些 内 容 在 PostgreSQL 的 文档 中 都 有 很 详细 的 
描述 ， 故 这 里 不 会 对 具体 的 语法 进行 介绍 ， 而 着 重 介绍 每 个 语言 的 特性 ， 更 加 适合 在 什么 场景 下 使 用 。 


6.4.1 pl/pgsql 


对 于 熟悉 Oracle 的 读者 来 说，pl/pgsq| 的 语法 应 该 不 陌生 ， 它 的 语法 跟 Oracle 的 pl/sql 语 法 相当 类 似 ， 只 不 过 功能 没有 那么 强 。 

相 比 起 Oracle 的 pl/sql，pl/pgsql 主 要 有 如 下 限制 |: 

1) 最 大 的 子 事务 个 数 只 能 是 100， 每 一 个 异常 捕获 ， 都 会 造成 一 个 子 事务 。 

2) 在 函数 执行 的 过 程 中 不 能 执行 commit。 

3) 由 于 不 能 执行 Commit， 因 此 一 个 函数 中 不 要 处 理 太 多 的 逻辑 ， 否 则 容易 导致 程序 出 错 ， 这 一 点 与 Oracle 不 一 样 。 如 果 有 比较 复杂 的 逻辑 ， 要 以 外 部 的 shell 调 用 来 实现 ， 不 要 在 函数 中 实现 。 
4) 所 有 的 pMpgsql 都 必须 以 函数 的 形式 存在 ， 没 有 Oracle 中 存储 过 程 的 概念 ， 所 以 每 次 使 用 都 必须 建立 函数 ， 然 后 再 执行 这 个 函数 ， 使 用 起 来 不 方便 。 

由 于 这 些 限制 ， 很 多 Oracle 的 存储 过 程 不 能 直接 迁移 过 来 ， 因 此 要 用 其 他 外 部 脚本 来 蔡 代 ， 以 实现 响应 的 功能 。 

下 面 介 绍 一 个 pl/pgsql 的 例子 。 


在 日 常数 据 库 使 用 中 ， 经 常 需 要 重建 一 些 表 ， 为 了 能 够 回 滚 ， 一 般 会 将 表 重 命名 ， 保 留 一 段 时 间 后 再 删除 。Greenplum 重 命名 表 会 有 一 个 问题 ， 就 是 将 表 重 命名 后 ， 表 上 的 视图 还 是 指向 原来 的 表 ， 
此 表 重 建 后 也 需要 将 表 上 的 视图 重建 ， 但 是 在 重 命名 过 程 中 ，Greenplum 并 没有 这 个 提示 。 为 了 避免 这 种 情况 ， 我 们 封装 一 个 函数 ， 实 现 这 个 功能 ， 函 数 的 描述 如 下 : 


. 检查 表 是 否 存在 ， 不 存在 则 报错 。 
“ 检查 表 上 有 没有 视图 ， 有 视图 则 将 这 个 表 上 的 视图 显示 出 来 ， 然 后 报错 。 
. 表 上 如 果 没 有 视图 ， 则 将 表 重 命名 ， 并 向 rename_table_log 表 中 插入 一 条 记录 ， 方 便 以 后 将 这 个 表 删 除 。 


` 为 了 避免 重 命名 后 的 表 有 重 名 ,根据 时 间 自 动 生 成 一 个 随机 数据 作为 表 名 后 级 。 


函数 代码 如 下 : 
create table PUBLIC.rename table log( 
Schemaname character varying (128) not nul] 
,ori name character varying (256) not null 
,tgt name character varying (256) not null 
,dw ins date timestamp (0) without time zone default now() 
,;isdel boolean default false 
)Distributed by (ori name); 
CREATE INDEX idx rename table log ON PUBLIC.rename table log USING btree (schemaname, ori name, tgt name); 
cr 


eate or replace function public.prc rename tab(schema name character varying,table name character varying) 
RETURNS void 


AS 
SBODYS 
declare 
l schema name  VARCHAR(80) := schema name; 
l table name VARCHAR(80) := table name ; 
lent | NTEGER; i 
l sql text; 
l viewname varchar (2560); 
l table rename VARCHAR (256); 
l views on tables boolean; 
BEGIN B m 
select count(*) into l cnt 


from pg catalog.pg tables 
where schemaname-lower(l schema name) and tablename-lower(l table name); 
l views on tables:-'f'; 
l sql:-'select ev class::regclass from pg rewrite where oid in ( 
select b.objid 
from pg depend a,pg depend b 
where a.refclassid-1259 
and b.deptype-''i'' 
and a.classid-20618 
and a.objid-b.objid 
ie 
a 


and a.classid-b.classid 

and a.refclassid-b.refclassid 

and a.refobjid«»b.refobjid 

and a.refobjid-'''||l schema name||'.'||l table name||'''::regclass)'; 
f(l cnt>0) then B , B E 
select substr(cast(to char (current timestamp(0),'ddhhmiss') as integer)/random(),1,6)||' rename' into 1 table rename; 
for 1 viewname IN execute 1 sql LOOP i u H 
RAISE NOTICE 'view ($) depend on table ($.2)', 1 
viewname,l schema name, 1 table name; 
l views on tables:-'t'; 
END LOOP; = 
if (1 views on tables-'t') then 
-RAISE EXCEPTION 'Please drop the views on tables'; 


H- 


end if; 
insert into PUBLIC.rename table log(schemaname,ori name,tgt 
name,dw ins date,isdel) 


rename,current timestamp, 
1 sql:-$Salter table $$ || 1 


name || $$ 


values (1 


. Schema name,l tabl 
false); 


rename to SS | | 1 


ELSE 


end if; 


SBODYS 


LANGUAGE 'p 


RAISE EXCEPTION 


RETURN; 
END; 


lpgsql' VOLATILE; 


e name,l table name||l table 


schema name || 
table name||l ` table | rename; 
EXECUTE 1 sql; 


$5.5$ || l table - 


'table does not exists'; 


使 用 上 面 的 函数 会 有 以 下 几 种 效果 。 


1) 表 不 存在 ,报错 : 


testDB=# se] 


ERROR:  tabl 


2) 表 上 有 视图 ， 报 错 : 


testDl 


B=# select prc rename tab('public','cxf 


NOT 


ERROR: 


CE: view (v cxfa) depend on table 
Please drop the views on tables 


3) 重 命名 成 功 : 


testDl 


B=# select prc rename tab('public','cxf 


prc rename tab 


ect prc rename tab('public','ds 
e does not exists 


(publ 


4) f£rename table log 表 中 的 记录 : 


testDl 


B-4 select * 


from rename 


schemaname | ori name | 


6.4.2 “语言 接口 


由 于 Greenplum 是 使 用 C 语 言 写 的 ， 因 此 使 用 C 语 言 来 编写 自 定义 函数 的 效率 会 很 高 ， 而 且 结 合 PostgreSQL 开 源 的 条 


| table log; 


tgt name 


a2'); 


dw ins date 


| cxfa2139926 rename | 2012-03-03 23:10:48 | f 


小 节 ， 我 们 将 介绍 如 何 使 用 C 语 言 在 Greenplum 中 开发 函数 。 


fdsfsf'); 


fa) 


| isdel 


寺 性 可 以 在 PostgreSQL 中 通过 


过 一 些 内 部 函数 来 简单 实现 我 们 需要 开发 的 接口 。 这 一 


关于 语法 方面 的 内 容 ，PostgreSQL 的 文档 已 经 解释 得 很 清楚 了 ， 这 里 就 不 再 介绍 了 ， 大 家 在 阅读 这 个 章节 之 前 可 以 先 去 看 一 下 PostgreSQL 的 官方 文档 关于 这 部 分 内 容 的 解释 。 


下 面 将 通过 


在 Greenplum/PostgreSQL 中 , 将 


字符 串 转换 成 时 间 是 很 方便 的 ， 很 多 种 格式 的 时 间 字 符 串 都 可 以 自动 转换 成 date 或 timestamp 类 


::date; 


testDB-4 select '2011-13-10 10:10:10' 
ERROR date/time field value 
IN 10:10': 


out of range: 
:date; 


HINT: 

testDB-4 select 'df': 
ERROR: 

LINE 1: select 'df' 


现在 有 一 个 需求 ， 就 是 验证 一 个 字符 串 是 
这 个 函数 调用 而 已 。 所 以 看 一 下 PostgreSQL 的 源码 ， 把 这 个 


invalid input syntax 


E 1: select '2011-13-10 10: 


Perhaps you need a diff 


:date; 


::date; 


for type date: 


在 src/backend/utils/adt/date.c 这 个 代码 中 ， 有 这 


/* date in() 
* Given date text string, convert to internal date 


ud 


Datum 
date in(PG FUNCTION ARGS) 


M AN 


这 个 


dterr = ParseDateTime (str, 


过 一 个 例子 来 介绍 如 何 使 用 C 语 言 来 开发 函数 。 


ud df" 


函数 : 


workbuf, sizeof 


"2011-13-10 10:10:10" 


erent "datestyle" setting. 


新 建 一 个 函数 来 实现 这 个 功能 。 


format. 


函数 调用 了 ParseDateTime 和 DecodeDateTime 这 两 个 函数 ， 就 可 以 让 


if (dterr == 0) 
dterr = Decod 
if (dterr != 0) 
DateTimeParseE 


DateTime (field, 


orror(dterr, str, 


(workbuf), field, 


ftype j 


ftype, MAXDATEFIELDS, &nf); 


— 
` 


nf, &dtype, tm, &fsec, &tzp); 


"date" ) ; 


一 个 功能 ， 避 免 重 复 判 断 字符 串 。 这 个 函数 的 C 语 言 代 码 如 下 : 


//is date.c 


dincl 
#inc] 


ude "postgres.h" 
ude "funcapi.h" 


#incl 
#inc] 


ude "utils/datetime.h" 


#ifdef 


PG MODUL 
#endif 


ude "fmgr.h" 
PG MODULE MAGIC 


E MAGIC; 


NFO V1 (is date); 


VarChar 


te (PG FUNCTION ARGS) 


is date(PG FUNCTION ARGS); 
PG FUNCTION 


*argl = 


struct pg tm tt, 


fsec t 
char 
memcpy ( 


*tm 
fsec; 


*str = (char *)palloc (VARSIZ 


PG GETARG VARCHAR P (0); 


= &tt; 


E (argl) 


只 别 出 这 个 字符 串 是 否 是 时 间 字 符 。 我 们 可 以 通 


- VARHDRSZ +1); 


Str, VARDATA(argl), VARSIZ 


str[VARSIZ 


E (argl) 


E(argl) - VARHDRSZ]-0; 


- VARHDRS2); 


如 果 是 时 间 格 式 不 正确 ，SQL 会 报错 ,例如 : 


否 是 有 效 的 时 间 。 查 询 了 很 多 PostgresQL 的 文档 ， 都 没有 发 现 这 样 一 个 函数 。 但 是 ， 在 进行 类 型 转换 的 时 候 ， 数 据 库 确实 是 做 了 这 个 验证 的 ， 只 不 过 没有 实现 
函数 抽取 出 来 ， 


过 引用 头 文件 utils/datetime.h， 直 接 使 用 这 两 个 函数 ， 融 可 以 简单 地 实现 这 


Q 
Mo 

o 

BK 
%* 


og ( 


INFO, str); 


workbuf [MAXDATELE 
field[MAXDATE 


ftype [MAXDATE 


e 
/ / elog (1 
d 
Jd: 


if (dterr == 0) 
dterr = DecodeDateTime (fiel 


nf; 
dtype; 
dterr; 
t2p; 


INFO, argl-»vl len ); 
terr = ParseDateTime (str, workbu! 


f, sizeo 


ftype, MAXDATEFIELDS, &nf); 


— 
` 


} 


f (dterr == 0){ 


elog (INFO, 


d, 


tm, &fsec, &tzp); 


"true" ) ; 


PG RETURN | 


else 


{ 


elog (INFO, 


PG RETURN BOOL(! 


BOOL (true); 


"false"); 
False); 


接 下 来 我 们 将 上 面 的 C 语 言 代码 编译 成 .so 的 库 文件 : 


gcc -m64 - 


ISGPHO 


E/include - 


ISGPHO 


gcc -m64 -shared is date.o 


将 is_date.so 这 个 库 文件 通过 scp 


GI EE ERN : 


REATE 


Or 


replace FUNCTI 


LANGUAGE 


is_date 函 数 的 使 用 效果 : 


RETURNS bool AS '/home/gpadminl/cxi 
C IMMUTABLE ; 


-LSGPHOh 


E/include/postgresql - 
E/lib -LS$GPHOP 


[S$GPHOME/include/postgresql/server - 


ISGPHOME/include/libpq -1 


ISGPHOME/include/postgresql/internal -O2 -Wall -Wmissing-r 


[ON is date (varchar) 
F/is date' 


E/lib/postgresql -o is date.so 


复制 到 Greenplum 集 群 的 每 一 台 机 器 上 ， 放 到 /home/gpadmin1/cxf/is_date 目 录 下 。 


testDB=# select is date('2011-12-10 10:10:10'); 
is date 


(1 row) 


is date 


td!) ; 


Qj 如 果 字 符 串 是 时 间 格 式 ， 并 且 时 间 正 确 ， 则 返回 true， 和 否则 返回 false。 


6.4.3 plpython 


笔者 对 Python 比较 了 解 ， 本 书 大 部 分 函数 的 例子 都 是 使 用 plpython 来 写 的 。 
使 用 起 来 非常 方便 。 与 上 面 介 绍 的 几 个 方法 


E, 
1. 将 字符 串 反 转 
CREATE or REPLACE FUNCTI 
RETURNS text 
AS SS 
if str!-None: 
return str[::-1] 
else: 
return None 
$$ LANGUAGE plpythonu; 


2. 字 符 串 拼接 


类 似 string_ agg 的 功能 ， 在 Greenplum 3.x 版 本 中 ， 没 


RETUI 


lse: 


re 


E or replace FUNCTI] 
RNS varchar 


f strl: 
turn strl-4delimiter-str2; 


[ON public.reverse(str text) 


func (strl varchar,str2 varchar,delimiter varchar) 


[ON public.strcat s 


rel 


turn str2; 


$$ LANGUAGE plpythonu; 
drop AGGR 


EGATE 


PUBL 


CREATE 


( 


SFUNC-s 
STYPI 


) 7 


AGGR 


EGATE PUBL 


E-VARCHAR 


trcat sf 


unc, 


C.STRCAT (VARCHAR, varchar); 


C.STRCAT (VARCHAR, varchar) 


下 面 是 一 个 示例 ， 查 询 test001 表 的 字段 名 ， 并 用 逗号 分 隔 开 : 


testDB-4 select STRCAT (attname::varchar,',") 


strcat 


3.Json 解 析 


from pg attribute where attrelid-'test001'::regclass and attnum>0; 


熟悉 脚本 语言 的 人 应 该 知道 ，python 无 论 在 语法 上 还 是 在 功能 上 ， 都 非常 完善 ， 再 加 上 python 有 着 非常 丰富 上 且 实 用 的 类 
样 ， 语 法 方面 就 不 一 一 介绍 了 ， 这 里 直接 使 用 plpython 来 编写 UDF， 快 速 实现 我 们 的 需 : 


这 个 函数 ， 我 们 可 以 自己 写 一 个 。 这 里 利用 了 PostgreSQL 的 聚合 函数 ， 具 体 用 法 可 以 参考 官方 文档 。 


在 标准 SQL 语 法 中 ， 有 普通 函数 UDF (1 对 1， 如 to_char、substr 等 ) , EESEERZRUDAF (多 对 一 ， 如 sum、count 等 ) ， 现 在 介绍 如 何 编写 (一 对 多 ) 函数 ， 即 一 行 变 多 行 。 同 时 ， 在 这 个 例子 上 将 介 
绍 使 用 python 中 类 库 来 解析 Json 的 格式 ， 感 受 下 python 使 用 类 库 的 方便 。 


假设 表 dormitory 用 于 保存 宿舍 成 员 的 名 字 ， 其 中 名 字 用 Json 的 格式 保存 ， 格 式 如 下 : 


"people" : [ { 

"firstName" : "Brett", 
"lastName" : "McLaughlin" 

), { 
"firstName" : "Jason", 
"lastName" : "Hunter" 

}, { 
"firstName" : "Elliotte", 
"lastName" : "Harold" 


现在 我 们 要 在 这 个 Json 格 式 中 将 所 有 成 员 的 名 字 取 出 来 ， 宿 舍 成 员 个 数 不 固 定 ， 函 数 的 结果 是 每 一 行 数据 代表 一 个 宿舍 成 员 。 


CREATE or REPLACE FUNCTION public.json parse(data text) 
RETURNS setof text 

AS $$ 

import json 

try: 


mydata-json.1loads (data) 

except: 
return ['parse json error'] 

returndata-[] 

try: 


for people in mydata['peopl 
returndata.append (peopl 
except: 
return ['get data error'] 
return returndata 
$$ LANGUAGE plpythonu; 


firstName'] + " " + people['lastName']) 


json_parse 函 数 的 使 用 方法 如 下 : 


testDB-4 select dorname,json parse (people) from dormitory; 
dorname json parse 
401 Brett McLaughlin 
401 Jason Hunter 
401 Elliotte Harold 
403 Mac Apple 
403 Lucy Red 
403 Lei Li 
402 Tom Green 
402 Xiaofeng Chen 
402 Meihua Li 
(9 rows) 


强大 的 Python 类 库 使 编写 UDF 变 得 十 分 方便 ， 读 者 可 以 尝试 使 用 Python 编写 一 些 自 定义 函数 。 


65 Greenplum MapReduce 


MapReduce 是 Google 提 出 的 一 种 海量 数据 并 发 处 理 的 一 种 编程 模型 ， 可 以 让 程序 员 在 多 台 机 器 上 快速 的 编写 出 自己 的 代码 。MapReduce 的 基本 思想 是 将 大 数据 量 拆 分 成 一 行 一 行 (key, value) 
对 ， 然 后 分 发 给 Map 模 块 ， 通 过 自 定 义 的 Map 阔 数 ， 生 成 新 的 (key, value) 对 ， 通 过 排序 汇总 ， 生 成 (key, output list) 发 给 自 定义 的 Reduce 函 数 处 理 ， 每 一 个 Reduce 阔 数 处 理 一 个 唯一 的 key 及 这 
个 key 对 应 的 所 有 value 的 列表 ， 如 果 有 需要 ， 还 可 以 将 Reduce 的 结果 作为 下 一 个 Map 的 数据 再 进行 计算 。 每 一 个 机 器 都 可 以 启动 多 个 Map 和 Reduce 来 计算 结果 。 


Greenplum MapReduce 人 允许 用 户 自己 编写 map 和 reduce 卫 数 ， 然 后 提交 给 Greenplum 并 发 处 理 引 警 处 理 ，Greenplum 在 分 布 式 的 环境 下 运行 MapReduce 人 代码， 并 处 理 所 有 Segment 的 报错 信息 。 
由 于 笔者 很 少 用 到 MapReduce 进 行 计算 ， 故 这 里 只 是 简单 介绍 一 下 如 何 使 用 MapReduce， 有 具体 的 一 些 细 节 ， 需 要 读者 自行 测试 。Greenplum 中 的 MapReduce 基 本 框架 如 图 6-5 所 示 。 


MAP (SPLIT) FUNCTION 


REDUCE (SUMMARIZE) FUNCTION 


图 6-5 ”Greenplum 中 的 MapReduce 基 本 框架 


从 图 6-5 中 可 以 看 到 MapReduce 的 组 成 部 分 如 表 6-11 所 示 。 


组 成 部 分 
INPUT 
Map PRI 
Reduce PK Zi 
OUTPUT 


46-11 MapReduce 的 组 成 部 分 描述 


i ” xb 
可 以 是 数据 库 中 的 一 张 表 、 外 部 表 读 取 外 部 文件 ， 或 者 是 一 个 SQL 
用 户 自 定义 ， 可 以 使 用 Python, C, perl 等 语言 编写 
用 户 自 定义 ,可 以 使 用 Python, C, perl 等 语言 编写 ， 或 者 是 使 用 一 个 系统 上 自 带 的 函数 
可 以 输出 到 数据 库 的 某 种 表 中 ， 可 以 是 标准 输出 ， 也 可 以 是 输出 到 一 个 外 部 文件 中 


在 Greenplum 中 ， 执 行 MapReduce 消 数 需要 编写 yaml 文 件 。 在 yaml 文 件 中 ， 主 要 有 以 下 几 个 部 分 需要 定义 。 


1.INPUT 
INPUT 有 多 种 类 型 : 可 以 是 一 个 外 部 文本 数据 文件 、 一 个 数据 库 中 的 表 或 查询 等 ， 示 例如 下 : 


(1) 外 部 文件 


— INPUT: 
NAME: my file input 
FILE: seghostnam e:/var/data/gpfiles/employees.txt 
COLUMNS 
- first name text 
- last name text 


- hire date text 


DELIMITER: | 


(2) 数据 库 表 


- INPUT: 
NAME: my table input 
TABLE: sales 


(3) 数据 库 查 询 


— INPUT: 
NAME: my query input 


QUERY: SELECT vendor, amt FROM sales WHERE region-'usa'; 


(4) 通过 gpfdist 导 入 外 部 文件 


— INPUT: 


NAME: my distributed input 
# specifies the host, port and the desired files served 
# by gpfdist. /* denotes all files on the gpfdist server 
GPFDIST: 
- gpfdisthost:8080/* 
COLUMNS 
- first name text 
- last name text 
- dept text 
- hire date text 
FORMAT: TEXT 
DELIMITER: '|' 


(5) 操作 系统 命令 


= INPUT: 


NAME: my query input 
EXEC: /var/load scripts/get log data.sh 
COLUMNS 
- url text 
- date timestamp 
FORMAT: TEXT 
DELIMITER: '|' 


类 型 (4) 和 (5) 也 可 以 采用 在 数据 库 中 建成 外 部 表 的 形式 ， 就 是 可 以 当成 数据 库 中 的 表 操 作 ， 跟 (2) 一 样 ， 这 两 个 类 型 的 功能 跟 外 部 表 有 点 重复 了 。 
2.Map 

Map 是 输入 一 行 数据 ， 有 0 个 或 多 个 数据 输出 ， 可 以 用 Python 或 per| 实 现 。 

3.Reduce 

也 可 以 用 Python 或 Per 实现 。 


Greenplum 提 供 几 个 预定 义 Reduce 国 数 : 


DENTITY 一 ”返回 没有 变化 的 (key,value) 对 
SUM - 计算 数字 类 型 的 和 
AVG - 计算 数字 类 型 的 平均 值 
COUNT - 计算 输入 数据 的 count 数 
MIN - 计算 数字 类 型 的 最 小 值 
计算 数字 类 型 的 最 大 值 


(函数 对 value 进 行 相应 的 操作 ) 

4.OUTPUT 

OUTPUT 可 以 是 数据 表 也 可 以 是 文本 文件 ， 示 例如 下 。 
(1) 输出 到 文本 文件 


— OUTPUT: 
NAME: gpmr output 
FILE: /var/data/mapreduce/wordcount.out 


(2) 输出 到 数据 表 


= OUTPUT: 
NAME: gpmr output 
TABLE: wordcount out 


MODE: REPLACE (iE: 若是 放 此 表 并 重建 表 ， 则 用 REPLACE， 若 是 想 追 加 输出 的 数据 ， 则 用 APPEND。) 


5.Task 


Task 的 描述 是 选择 性 的 ， 主 要 用 在 多 级 的 MapReduce 任 务 中 ， 一 个 Task 的 输出 可 以 作为 下 一 个 Task 或 Map 的 输入 。 


例如 : 


- TASK: 
NAME: document prep 
SOURCE: documents 
MAP: document map 


6.EXECUTE 


EXECUTE 就 是 将 上 面 定 义 的 步骤 串联 起 来 。 


SOURCE: input or task name 
TARGET: output name 

MAP: map function name 
REDUCE: reduce function name 


MapReduce 最 简单 的 程序 一 般 都 是 WordCount， 现 在 就 用 Greenplum 来 编写 一 个 简单 的 WordCount， 代 码 如 下 : 


NAME: sentences 
TABLE: sentences2 


NAME: wordsplit 

LANGUAGE: python 

PARAMETERS: [id, sentence] 

FUNCTION: | 

for word in sentence.lower().split(): 
yield([word,1]) 
OPTIMIZE: STRICT IMMUTABLE 
RETURNS: 
- key text 
- value integer 
= OUTPUT: 
NAME: wordcount result 
TABLE: wordcount result 
MODE: REPLACE 


EXECUTE: 


SOURCE: sentences 

MAP: wordsplit 

REDUCE: SUM 

TARGET: wordcount result 


其 中 sentences2 是 原 表 ， 表 中 有 100 万 行 测试 数据 ， 每 一 行 都 是 一 个 文本 ，Map 阶 段 将 这 些 句 子 拆 分 成 一 个 个 单词 ，Reduce 阶 段 则 执行 系统 自 带 的 SUM 命 令 ， 统 计 出 每 个 单词 出 现 的 次 数 。 执 行 这 个 
MapReduce 任 务 的 命令 及 时 间 消 耗 如 下 : 


$ time gpmapreduce -f wordcount.yaml 
mapreduce 26132 run 1 

DONE 

real 1m35.634s 

user O0mO .002s 

SYS Om0 .004s 


可 以 看 出 ， 这 个 SQL 消耗 了 95 秒 ， 在 运行 的 过 程 中 ，CPU 的 占有 率 都 是 100%。 为 了 让 读者 有 一 个 比较 ， 下 面 用 SQL 来 实现 这 个 逻辑 ， 然 后 比较 两 者 的 速度 。 


首先 ， 为 了 用 SQL 来 实现 这 个 逻辑 ， 必 须 编写 一 个 UDF 函 数 ， 将 句子 拆 分 成 一 个 个 的 单词 ， 为 了 提升 性 能 ， 在 UDF 中 先 对 数据 进行 统计 ， 代 码 如 下 : 


create type wordcount type as (word varchar(128),cnt int); 
CREATE or REPLACE FUNCTION public.word split(sentence text) 
] f wordcount type 


RETURNS setof 

AS $$ 
dict-(] 

for word in sentence.lower().split(): 


if dict.has key (word): 
dict[word] = dict[word]-*1 
else: 
dict[word] = 1 


return dict.items() 
$$ LANGUAGE plpythonu; 


函数 的 执行 效果 如 下 : 


— 
RM 


testDB-4 select * from word split('hello hello cxf world cxf 
word | cnt 
一 一 一 一 一 一 一 十 一 一 一 一 一 

| 

| 

| 

) 


现在 句子 已 经 跟 MapReduce 一 样 ， 被 拆 分 成 一 个 个 单词 了 。 可 以 使 用 SQL 来 实现 这 个 逻辑 了 ， 语 句 如 下 : 


testDB=# insert into wordcount sqlresult 
testDB-4 select (ws).word,sum((ws).cnt) 
testDB-4 from ( 

testDB (# select word split(sentence) ws 
testDB (14 from sentences2 

testDB (14 )t 

testDB-4 group by (ws).word; 

NSERT 0 444 

Time: 64894.717 ms 


在 SQL 执行 的 过 程 中 ，segment 上 CPU 的 使 用 率 也 都 是 100%， 这 个 SQL 只 用 了 65 秒 。 比 使 用 MapReduce 的 效率 高 ， 为 什么 会 这 样 呢 ? 下 面 我 们 来 分 析 下 这 两 种 方法 的 异同 。 


相同 点 : 首先 ， 无 论 使 用 Greenplum 的 SQL 执行 ， 还 是 MapReduce， 都 是 并 行 执行 的 ， 所 有 的 机 器 都 同时 在 工作 ， 同 时 ， 计 算 都 是 在 数据 所 在 节点 上 进行 的 ， 以 提升 性 能 。 其 次 ， 对 于 SQL 来 说 ， 先 
将 句子 拆 分 成 单词 ， 然 后 再 对 数据 进行 统计 ， 这 与 MapReduce 的 思路 也 是 一 样 的 。 


不 同 点 : 对 于 MapReduce 来 说 ， 从 Map 到 Reduce 的 阶段 ， 需 要 对 数据 进行 排序 ， 然 后 把 相同 key 的 数据 抛 给 Reduce 执 行 。 但 是 对 于 SQL 来 说 ， 通 过 执行 计划 可 以 看 到 ， 在 进行 聚合 的 时 候 ， 数 据 库 其 


实 使 用 的 是 Hash 聚 合 ， 效 率 比 排序 要 高 ， 所 以 这 里 使 用 SQL 的 效率 要 高 一 些 。 (关于 Hash 聚 合 的 原理 可 参考 第 5 章 ) 。 


为 了 验证 是 否 如 此 ， 可 以 将 SQL 采取 Group 聚合 ， 这 样 也 都 是 使 用 排序 来 进行 聚合 了 ， 使 用 Group 聚合 消耗 的 时 间 是 146 秒 ， 这 个 时 间 明 显 比 MapReduce 的 消耗 要 慢 ， 会 出 现 这 种 情况 还 是 因为 SQL 的 
模型 比 MapReduce 的 模型 要 更 加 复杂 ，SQL 要 考虑 到 事务 、 锁 等 问题 ， 模 型 比较 复杂 ， 消 耗 的 时 间 也 肯定 会 更 多 。 


通过 上 面 的 比较 ， 读 者 应 该 对 MapReduce 有 一 个 比较 清楚 的 了 解 。 对 于 Greenplum 来 说 ， 大 部 分 应 用 使 用 的 还 是 SQL， 当 然 也 有 一 些 场景 更 加 适合 使 用 MapReduce， 由 于 两 者 的 编程 模型 不 一 样 ， 比 
实 


如 在 实现 聚合 的 方式 上 。 如 何 选 择 更 合适 的 方法 ， 获 取 更 好 的 性 能 ， 读 者 可 针对 应 用 场景 进行 测试 后 再 决定 。 


6.6 “小结 
本 章 分 别 介绍 了 Greenplum 的 一 些 高 级 的 特性 ， 这 些 高 级 特性 都 是 与 PostgreSQL 不 一 样 的 。 能 够 合理 地 利用 这 些 特性 ， 可 以 获得 更 高 的 易 用 性 ， 并 获得 性 能 的 提升 ， 当 然 ， 在 使 用 每 一 种 新 特性 的 情 
况 下 ， 都 必须 对 其 架构 及 原理 有 一 定 的 了 解 ， 清 楚 这 些 特性 的 优 缺点 ， 从 而 应 用 在 相应 的 场景 上 以 获得 更 佳 的 性 能 。 


压缩 表 : 对 数据 采用 压缩 存储 的 方法 ， 可 以 利用 CPU 来 节省 存储 空间 ， 降 低 1O 的 消耗 ， 对 于 数据 库 应 用 性 能 有 着 重要 的 影响 。 笔 者 所 在 公司 Greenplum 数 据 库 的 大 部 分 数据 表 都 是 通过 压缩 表 进 行 保存 
的 。 


列 存储 : 一 种 特殊 的 压缩 表 ， 将 数据 按 列 存储 ， 可 以 提升 压缩 率 ， 对 于 数据 库 这 种 IO 密集 型 的 应 用 ， 可 以 大 大 提升 性 能 。 但 是 列 存储 同时 也 带 来 了 大 量 的 小 文件 ， 会 对 文件 系统 造成 一 定 的 压力 ， 故 不 
能 大 规模 使 用 。 具 体 的 性 能 差异 ， 读 者 可 以 根据 实际 应 用 场景 进行 测试 。 


外 部 表 : Greenplum 通 过 外 部 表 可 以 非常 方便 地 进行 数据 的 导入 导出 ， 通 过 并 行 处 理 ， 性 能 非常 高 。 可 执行 外 部 表 提 供 了 一 种 可 拓展 的 方法 ， 使 得 数据 导入 导出 更 加 灵活 。 同 时 ， 现 在 Hadoop 非 常 
火 ，Greenplum 通 过 提供 与 HDFS 快 速 交 互 的 方式 ， 使 数据 库 与 Hadoop 可 以 灵活 地 结合 在 一 起 使 用 。 


自 定义 函数 : 要 使 数据 库 使 用 起 来 更 加 方便 ， 自 定义 函数 在 拓展 SQL 上 有 着 很 重要 的 作用 ， 通 过 自 定义 函数 ， 再 结合 SQL， 可 以 实现 很 多 功能 。 在 自 定 义 函 数 上 ，Greenplum 提 供 了 非常 灵活 的 语言 实 
现 ， 读 者 可 以 针对 具体 的 应 用 场景 以 及 对 语言 的 熟悉 程度 ， 选 择 合适 的 语言 编写 自己 的 UDF。 


MapReduce: 当下 非常 流行 的 一 种 编程 思想 ， 它 简化 了 编程 模型 ， 通 过 这 种 编程 思路 ， 可 以 解决 很 多 SQL 无 法 完成 的 功能 。Greenplum 的 MapReduce 很 好 地 与 数据 库 进行 了 结合 ， 提 供 了 另外 一 种 处 
理 数 据 的 方法 。 


第 7 章 ”Greenplum 架 构 介绍 


本 章 开 始 讲解 Greenplum 的 架构 ， 主 要 从 并 行 计 算 和 并 行 数据 库 入 手 来 分 析 Greenplum 架 构 的 特性 。 在 进行 Greenplum 开 发 、 管 理 及 大 数据 分 析 架 构 选 型 前 ， 了 解 Greenplum 的 架构 是 必 不 可 少 的 。 


Greenplum 架 构 在 前 面 几 章 (第 2 章 和 第 5 章 ) 中 都 有 简单 介绍 ， 本 章 将 更 详细 系统 地 介绍 Greenplum 架 构 的 特点 及 优势 ， 最 后 将 介绍 其 他 大 型 分 布 式 数据 库 的 特点 。 


7.1 并 行 和 分 布 式 计算 
1. 并 行 计算 


并 行 计算 (Parallel computing) 一 般 是 指 许多 指令 同时 进行 的 计算 模式 。 相 对 于 串 行 计算 ， 并 行 计算 可 以 划分 成 时 间 并 行 和 空间 并 行 。 时 间 并 行 即 流水 线 技术 ， 空 间 并 行使 用 多 个 处 理 器 执行 并 发 计 
算 ， 当 前 研究 的 主要 是 空间 的 并 行 问 题 。 空 间 上 的 并 行 导致 两 类 并 行 机 器 的 产生 ， 即 单 指令 流 多 数据 流 (SIMD) 和 多 指令 流 多 数据 流 (MIMD) 。MIMD 类 的 机 器 又 可 分 为 常见 的 五 类 : 并 行 向 量 处 理 机 
(PVP) 、 对 称 多 处 理 机 (SMP) 、 大 规模 并 行 处 理 机 (MPP) 、 工 作 站 机 群 (COW) 、 分 布 式 共享 存储 处 理 机 (DSM) 。 我 们 简单 看 一 站 SMP、DSM (NUMA) 、MPP。 


(1) SMP 


所 谓 对 称 多 处 理 器 ， 是 指 服务 器 中 多 个 CPU 对 称 工作 ， 无 主 次 或 从 属 关系 ， 各 CPU 共享 相同 的 物理 内 存 ， 每 个 CPU 访问 内 存 中 的 任何 地 址 所 需 时 间 是 相同 的 ， 因 此 SMP 也 被 称 为 一 致 存 储 器 访问 结构 
(Uniform Memory Access, UMA) 。 对 SMP 服 务 器 进行 扩展 的 方式 包括 增加 内 存 、 使 用 更 快 的 CPU、 增 加 CPU、 扩 充 MO ( 模 口 数 与 总 线 数 ) 以 及 添加 更 多 的 外 部 设备 (通常 是 磁盘 存储 ) 。SMP 服 务 
器 的 主要 特征 是 共享 ， 系 统 中 所 有 资源 (CPU、 内 存 、I/O 等 ) 都 是 共享 的 。 也 正 是 由 于 这 种 特征 ， 导 致 了 SMP 服 务 器 的 主要 问题 ， 那 就 是 它 的 扩展 能 力 非常 有 限 。 对 于 SMP 服 务 器 而 言 ， 每 一 个 共享 的 环 
节 都 可 能 造成 SMP 服 务 器 扩展 时 的 瓶颈 ， 而 最 受 限 制 的 则 是 内 存 。 由 于 每 个 CPU 必须 通过 相同 的 内 存 总 线 访问 相同 的 内 存 资 源 ， 因 此 随 着 CPU 数量 的 增加 ， 内 存 访问 冲突 将 迅速 增加 ， 最 终 会 造成 CPU 资源 
的 浪费 ， 使 CPU 性 能 的 有 效 性 大 大 降低 。 实 验证 明 ，SMP 服 务 器 CPU 利用 率 最 好 的 情况 是 CPU 为 2~4 个 。 


(2) NUMA 


NUMA (Non-Uniform Memory Access) 服务 器 的 基本 特征 是 具有 多 个 CPU 模块 ， 每 个 CPU 模块 由 多 个 CPU (如 4 个 ) 组 成 ， 并 且 具 有 独立 的 本 地 内 存 、MO 槽 口 等 。 由 于 其 节点 之 间 可 以 通过 互联 
模块 (又 称 为 Crossbar Switch) 进行 连接 和 信息 交互 ， 因 此 每 个 CPU 可 以 访问 整个 系统 的 内 存 (这 是 NUMA 系 统 与 MPP 系 统 的 重要 差别 ) 。 显 然 ， 访 问 本 地 内 存 的 速度 将 远 远 高 于 访问 远程 内 存 (系统 内 
其 他 节点 的 内 存 ) 的 速度 ， 这 也 是 非 一 致 存储 访问 NUMA 的 由 来 。 但 NUMA 技 术 同 样 有 一 定 缺陷 ， 由 于 访问 远程 内 存 的 延 时 远 远 超过 本 地 内 存 ， 因 此 当 CPU 数 量 增加 时 ， 系 统 性 能 无 法 线性 增加 。 


(3) MPP 

MPP 由 多 个 SMP 服 务 器 通过 一 定 的 节点 互联 网 络 进行 连接 ， 协 同 工 作 ， 完 成 相同 的 任务 ， 从 用 户 的 角度 来 看 是 一 个 服务 器 系统 。 其 基本 特征 是 由 多 个 SMP 服 务 器 (每 个 MP 服务 器 被 称 做 节点 ) 通过 
节点 互联 网 络 连 接 而 成 ， 每 个 节点 只 访问 自己 的 本 地 资源 (内 存 、 存 储 等 ) ， 是 一 种 完全 无 共享 (Shared-Nothing) 结构 ， 因 而 扩展 能 力 最 好 ， 理 论 上 其 扩展 无 限制 。 在 MPP 系 统 中 ， 每 个 SMP 节 点 也 可 
以 运行 自己 的 操作 系统 、 数 据 库 等 。 但 和 NUMA 不 同 的 是 ， 它 不 人 存在 异地 内 存 访问 的 问题 。 换 言 之 ， 每 个 节点 内 的 CPU 不 能 访问 另 一 个 节点 的 内 存 。 节 点 之 间 的 信息 交互 是 通过 节点 互联 网 络 实现 的 ， 这 个 
过 程 一 般 称 为 数据 重 分 配 (Data Redistribution) 。 但 是 MPP 服 务 器 需要 一 种 复杂 的 机 制 来 调度 和 平衡 各 个 节点 的 负载 和 并 行 处 理 过 程 。 目 前 一 些 基于 MPP 技 术 的 服务 器 往往 通过 系统 级 软件 〈 如 数据 
库 ) 来 屏蔽 这 种 复杂 性 。 

2. 分 布 式 计算 

分 布 式 系统 (distributed system) 是 建立 在 网 络 之 上 的 软件 系统 。 分 布 式 系统 具有 高 度 的 内 聚 性 和 透明 性 。 因 此 ， 网 络 和 分 布 式 系统 之 间 的 区 别 更 多 的 在 于 高 层 软件 (特别 是 操作 系统 ) ， 而 不 是 硬 
件 。 


内 聚 性 是 指 每 一 个 数据 库 分 布 节点 高 度 自 治 ， 有 本 地 的 数据 库 管理 系统 。 透 明 性 是 指 每 一 个 数据 库 分 布 节点 对 用 户 的 应 用 来 说 都 是 透明 的 ， 看 不 出 是 本 地 还 是 远程 。 在 分 布 式 数据 库 系统 中 ， 用 户 感觉 
不 到 数据 是 分 布 的 ， 即 用 户 无 须知 道 关 系 是 否 分 割 、 有 无 副本 、 数 据 存 于 哪个 站 点 以 及 事务 在 哪个 站 点 上 执行 等 。 


分 布 式 计算 就 是 研究 如 何 把 一 个 需要 非常 巨大 的 计算 能 力 才能 解决 的 问题 分 成 许多 小 的 部 分 ， 然 后 把 这 些 部 分 分 配给 许多 计算 机 进行 处 理 ， 最 后 把 这 些 计 算 结 果 综 合 起 来 得 到 最 终 的 结果 。 


MapReduce 就 是 分 布 式 计算 中 最 典型 的 一 种 编程 方法 ， 是 Google 提 出 的 一 个 软件 架构 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 关 于 “Map” 和 “Reduce”， 其 中 Map (映射 ) 函数 ， 用 来 把 
一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ，Reduce (化 简 ) 函数 ， 用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 。 很 多 数据 计算 都 可 以 拆 分 成 Map 和 Reduce， 通 过 MapReduce 让 用 户 方便 地 在 分 布 式 
系统 中 运行 数据 处 理 程序 。 
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并 行 数据 库 要 求 尽 可 能 并 行 执行 所 有 的 数据 库 操 作 ， 从 而 在 整体 上 提高 数据 库 系 统 的 性 能 。 根 据 所 在 计算 机 的 处 理 器 (Processor) 、 内 存 (Memory) 及 存储 设备 (Storage) 的 相互 关系 ， 并 行 数据 
库 可 以 归纳 为 三 种 基本 的 体系 结构 (这 也 是 并 行 计算 的 三 种 基本 体系 结构 ) ， 即 共享 内 存 结构 (Shared-Memory) 、 共 享 磁盘 结构 (Shared-Disk) 和 无 共享 资源 结构 (Shared-Nothing) 。 


(1) Shared-Memory 结 构 


该 结构 包括 多 个 处 理 器 、 一 个 全 局 共享 的 内 存 ( 主 存储 器 ) 和 多 个 磁盘 人 存储， 各 个 处 理 器 通过 高 速 通信 网 络 (Interconnection Network) 与 共享 内 存 连接 ， 并 均 可 直接 访问 系统 中 的 一 个 、 多 个 或 全 
部 的 磁盘 存储 ， 在 系统 中 ， 所 有 的 内 存 和 磁盘 存储 均 由 多 个 处 理 器 共享 。 在 并 行 数据 库 领 域 ，Shared-Memory 结 构 很 少 被 使 用 。 


(2) Shared-Disk 结 构 


该 结构 由 多 个 具有 独立 内 存 ( 主 存储 器 ) 的 处 理 器 和 多 个 磁盘 存储 构成 ， 各 个 处 理 器 相互 之 间 没 有 任何 直接 的 信息 和 数据 的 交换 ， 多 个 处 理 器 和 磁盘 存储 由 高 速 通信 了 网络 连 接 ， 每 个 处 理 器 都 可 以 读 写 
全 部 的 磁盘 存储 。Shared-Disk 结 构 的 典型 代表 是 Oracle 集 群 。 


(3) Shared-Nothing 结 构 


该 结构 由 多 个 完全 独立 的 处 理 节点 构成 ， 每 个 处 理 节 点 具有 自己 独立 的 处 理 器 、 独 立 的 内 存 ( 主 存储器) 和 独立 的 磁盘 存储 ， 多 个 处 理 节点 在 处 理 器 由 高 速 通信 网 络 连接 ， 系 统 中 的 各 个 处 理 器 使 用 自 
己 的 内 存 独 立地 处 理 自己 的 数据 。 


在 这 种 结构 中 ， 每 一 个 处 理 节点 就 是 一 个 小 型 的 数据 库 系 统 ， 多 个 节点 一 起 构成 整个 的 分 布 式 的 并 行 数据 库 系 统 。 由 于 每 个 处 理 器 使 用 自己 的 资源 处 理 自己 的 数据 ， 不 存在 内 存 和 磁盘 的 争 用 ， 从 而 提 
高 了 整体 性 能 。 另 外 这 种 结构 具有 优良 的 可 扩展 性 ， 只 需 增 加 额外 的 处 理 节点 ， 就 可 以 以 接近 线性 的 比例 增加 系统 的 处 理 能 力 。shared-Nothing 结 构 的 典型 代表 是 Teradata、Vertica、Greenplum、 
Aster Data, IBM DB2 和 MysSQL 的 集群 也 使 用 了 这 种 结构 。 


7.3 Greenplum 架 构 分 析 


Greenplum 的 高 性 能 得 益 于 其 良好 的 体系 结构 。Greenplum 的 架构 采用 了 MPP (大 规模 并 行 处 理 ) 。 在 MPP 系 统 中 ， 每 个 SMP 节 点 也 可 以 运行 自己 的 操作 系统 、 数 据 库 等 。 换 言 之 ,每 个 节点 内 的 
CPU 不 能 访问 另 一 个 节点 的 内 存 。 节 点 之 间 的 信息 交互 是 通过 节点 互联 网 络 实现 的 ， 这 个 过 程 一 般 称 为 数据 重 分 配 (Data Redistribution) 。 与 传统 的 SMP 架 构 明 显 不 同 ， 在 通常 情况 下 ，MPP 系 统 因 为 
要 在 不 同 处 理 单元 之 间 传 送信 息 ， 所 以 它 的 效率 要 比 SMP 要 差 一 点 ， 但 是 这 也 不 是 绝对 的 ， 由 于 MPP 系 统 不 共享 资源 ， 因 此 对 它 而 言 ， 资 源 比 SMP 要 多 ， 当 需要 处 理 的 事务 达到 一 定 规模 时 ，MPP 的 效率 
要 比 SMP 好 。 视 通信 时 间 占 用 计算 时 间 的 比例 来 判定 ， 如 果 通 信 时 间 比 较 多 ， 那 MPP 系 统 就 不 占 优 势 了 ， 相 反 ， 如 果 通 信 时 间 比 较 少 ， 那 么 MPP 系 统 可 以 充分 发 挥 资 源 的 优势 ， 达 到 高 效率 。 在 当前 使 用 
的 OTLP 程 序 中 ， 用 户 访问 一 个 中 心 数 据 库 ， 如 果 采 用 SMP 系 统 结构 ， 它 的 效率 要 比 采 用 MPP 结 构 快 得 多 。 而 MPP 系 统 在 决策 支持 和 数据 挖掘 方面 显示 了 优势 ， 可 以 这 样 襄 ， 如 果 操 作 相 互 之 间 没有 什么 关 
系 ， 处 理 单元 之 间 需 要 进行 的 通信 比较 少 ， 采 用 M PP 系统 就 要 好 ， 相 友 融 不 合适 了 。 


Greenplum 是 一 种 基于 PostgreSQL (开源 数据 库 ) 的 分 布 式 数据 库 ， 其 采用 的 Shared-Nothing 架 构 (MPP) 、 主 机 、 操 作 系 统 、 内 存 、 存 储 都 是 自我 控制 的 ， 不 存在 共享 。Greenplum 架 构 主 要 由 
Master Host, Segment Host、lnterconnect 三 大 部 分 组 成 ， 如 图 7-1 所 示 。 
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图 7-1 GreenplumZ& 44 
(1) Master Host 


Master Host 是 Greenplum 数 据 库 系统 的 入 口 ， 它 接受 客户 端的 连接 请 求 、 负 责 权限 认证 、 处 理 SQL 命 令 (SQL 的 解析 并 形成 执行 计划 ) 、 分 发 执行 计划 、 汇 总 Segment 的 执行 结果 、 返 回执 行 结果 给 
客户 端 。 由 于 Greenplum 数 据 库 是 基于 PostgresSQL 数 据 库 的， 终端 用 户 通过 Master 同 数据 库 交 互 就 如 同 操作 一 个 普通 的 PostgresSQL 数 据 库 。 用 户 可 以 使 用 PostgresSQL 或 者 JDBC、ODBC 等 应 用 程序 
接口 连接 数据 库 。Greenplum Master 不 存储 业务 数据 ， 仅 存储 数据 字典 。 


(2) Segment Host 


Segment Host 负 责 业 务 数 据 的 存储 和 存 取 、 用 户 查 询 SQL 的 执行 。Greenplum 数 据 库 的 性 能 由 一 组 Segment 服 务 中 最 慢 的 Segment 决 定 ， 因 此 要 确保 基本 的 运行 Greenplum 数 据 的 硬件 与 操作 系统 
在 同一 个 性 能 级 别 ， 同 样 建议 在 Greenplum 数 据 系统 中 的 所 有 的 Segment 机 器 有 一 样 的 资源 与 配置 。 


(3) Interconnect 


Interconnect 是 Greenplum 数 据 库 的 网 络 层 ， 在 每 个 egment 中 起 到 一 个 I|PC 的 作用 (Inter-Process Communication) 。Greenplum 数 据 库 推荐 使 用 标准 的 干 兆 以 太 网 交换 机 来 做 Interconnect。 
在 默认 情况 下 ，lnterconnect 使 用 的 是 UDP 协议 来 进行 传输 ， 因 为 在 Greenplum 的 软件 当中 ， 没 有 其 他 包 去 检查 和 验证 UDP， 所 以 UDP 协议 在 可 靠 性 上 等 同 于 TCP 协 议 ， 并 且 超 过 了 TCP 的 性 能 和 可 扩展 
性 ， 而 且 使 用 TCP 协 议会 有 一 个 限制 ， 最 大 只 能 使 用 1000 个 segment 实例 。 


74 ” 几 余 与 故障 切换 


Greenplum 数 据 库 配 置 了 镜像 节点 之 后 ， 当 主 节点 不 可 用 时 会 自动 切换 至 镜像 节点 ， 集 群 仍然 保持 可 用 状态 。 当 主 节点 恢复 并 启动 之 后 ， 主 节点 会 自动 恢复 期 间 的 变更 。 只 要 Master 不 能 连接 上 
Segment 实 例 时 ， 就 会 在 系统 表 中 将 此 实例 标识 为 不 可 用 ， 并 用 镜像 节点 来 代替 。 当 然 如 果 在 配置 服务 器 集群 时 ， 没 有 开启 镜像 功能 ， 任 何 一 个 Segment 实 例 不 可 用 ， 整 个 集群 将 变 得 不 可 用 ， 大 大 降低 集 
群 可 用 性 。 镜 像 节 点 一 般 需要 和 主 节点 位 于 不 同 服务 器 上 ， 如 图 7-2 所 示 。 
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图 7-2 ”Greenplum 的 Segment 镜 像 配 置 


除了 像 图 7-2 这 样 为 Negment 实 例 配置 镜像 节点 ， 我 们 也 可 以 为 Master 节 点 配置 镜像 ， 确 保 系 统 的 变更 信息 不 会 丢失 ， 提 升 系统 的 健壮 性 ， 如 图 7-3 所 示 。 
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图 7-3  Greenplum5 Master Bo Æ 


另外 ， 我 们 还 需要 从 网 络 配置 上 确保 节点 之 间 的 网 络 交 互 的 高 可 用 。 
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Greenplum 是 一 个 分 布 式 数据 库 系统 ， 故 其 所 有 的 业务 数据 都 是 物理 存放 在 集群 的 所 有 segment 实例 数据 库 上 。 这 些 看 似 独立 的 PostgreSQL 数 据 库 通过 网 络 相互 连接 ， 并 和 Master 节 点 协同 构成 整个 
数据 库 集群 。 在 学 习 和 使 用 Greenplum 数 据 库 时 ， 我 们 必须 理解 数据 在 集群 中 是 如 何 存 放 的 。 下 面 我 们 以 一 个 简单 数据 仓库 星 型 模型 为 例 ， 形 象 地 介绍 数据 是 如 何 存 放 的 ， 如 图 7-4 所 示 。 
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图 7-4 ”示例 模型 


在 Greenplum 数 据 库 中 所 有 表 都 是 分 布 式 的 ， 所 以 每 一 张 表 都 会 被 切片 ， 每 个 egment 实 例 数据 库 会 存放 相应 的 数据 片段 。 切 片 规则 可 由 用 户 定义 ， 可 选 的 方案 有 根据 用 户 对 每 一 张 表 指定 的 Hash 
Key 进 行 Hash 分 片 或 者 选择 随机 分 片 。 图 7-4 中 的 业务 场景 在 Greenplum 数 据 库 中 的 存放 规则 如 图 7-5 所 示 。sale、customer、product、vendor 四 张 表 的 数据 都 会 切片 存放 在 所 有 的 segment 上， 当 我 们 
需要 进行 数据 分 析 时 ， 所 有 Segment 实 例 同 时 工作 ， 由 于 每 个 segment 只 需要 计算 一 部 分 数据 ， 所 以 计算 效率 将 会 大 大 提升 。 这 正 是 Greenplum 数 据 库 分 布 式 计算 提升 性 能 的 关键 所 在 。 接 下 来 我 们 简单 
介绍 一 下 Greenplum 数 据 库 在 创建 或 者 修改 表 时 可 选 的 数据 分 散 策 略 一 一 Hash Distribution 和 Random Distribution, 
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图 7-5  GreenplumZ 4 7j 7p 
(1) Hash Distribution 


当选 择 Hash Distribution 策 略 时 ， 可 指定 表 的 一 列 或 者 多 列 组 合 。Greenplum 会 根据 指定 的 Hash Key 列 计算 每 一 行 数据 对 应 的 Hash 值 ， 并 映射 至 相应 的 segment 实例 。 当 选择 的 Hash Key 列 的 值 唯 
一 时 ， 数 据 将 会 均匀 地 分 散 至 所 有 Segment 实 例 。Greenplum 数 据 库 默认 会 采用 Hash Distribution ， 如 果 创 建 表 时 未 指定 Distributed Key， 则 会 选择 Primary Key 作 为 Distributed Key， 如 果 Primary Key 
也 不 存在， 就 会 选择 表 的 第 一 列 作为 Distributed Key. 


(2) Random Distribution 


当选 择 Random Distribution 时 ， 数 据 将 会 随机 分 配 至 Segment， 相 同 值 的 数据 行 不 一 定 会 分 发 至 同一 个 egment。 虽 然 Random Distribution 策 略 可 以 确保 数据 平均 分 散 至 所 有 Segment， 但 是 在 进 
行 表 关 联 分 析 时 ， 仍 然 会 按照 关联 键 重 分 布 数据 ， 所 以 Random Distribution 策 略 通常 不 是 一 个 明智 的 选择 (除非 你 的 SQL 只 有 对 单 表 进行 全 局 的 聚合 操作 ， 即 没有 group by 或 者 join 等 需要 数据 重 分 布 的 
操作 ， 此 时 这 种 分 布 模式 可 以 避免 数据 倾斜 ， 而 且 性 能 更 高 ) 。 


在 数据 建 模 时 ， 表 的 分 片 规则 选取 一 定 要 慎重 ， 尽 可 能 选择 唯一 且 常 用 于 Join 的 列 作为 Distribution Key。 这 样 数据 才 会 均匀 分 散 至 所 有 Segment 实 例 ， 相 应 的 查询 及 计算 的 负载 也 会 平 摊 至 整个 集 
群 ， 进 而 最 大 程度 体现 分 布 式 计算 的 优势 。 假 如 Distribution Key 选 取 不 当 (如 选择 性 别 列 作为 Distribution Key) ， 数 据 将 只 会 分 散 至 少数 几 个 Segment， 这 样 将 只 有 少数 segment 处 理 相 应 的 计算 请 求 ， 
完全 不 能 发 挥 整个 集群 的 计算 资源 ， 实 现 并 行 计 算 。 


7.6 BFA 

Greenplum 数 据 库 将 表 数 据 分 散 至 所 有 Segment 实 例 ， 当 需要 进行 表 关 联 分 析 时 ， 由 于 各 个 表 的 Distributed Key 不 同 ， 相 同 值 的 行 数据 可 能 分 布 在 不 同 服务 器 的 不 同 Segment 实 例 ， 因 此 不 可 避免 需 
要 在 不 同 3egment 间 移动 数据 才能 完成 Join 操 作 。 跨 库 关 联 也 正 是 分 布 式 数据 库 的 难点 之 一 。 我 们 接 下 来 学 习 一 人 Greenplum 数 据 库 是 如 何 解 决 这 个 问题 的 。 

(1) Join 操 作 的 两 个 表 的 Distributed Key 即 Join Key 


由 于 Join Key 即 为 两 个 表 的 Distributed Key， 故 两 个 表 关联 的 行 本 身 就 在 本 地 数据 库 ( 即 同一 个 Segment 实例 ) ， 直 接 关 联 即 可 。 在 这 种 情况 下 ， 性 能 也 是 最 佳 的 。 我 们 在 进行 模型 设计 时 ， 尽 可 能 将 
经 常 关联 的 字段 且 唯 一 的 字段 设置 为 Distributed Key， 如 图 7-6 所 示 。 


No Redistribution needed. 


SELECT TT 
FROM Table1 T1 


INNER JOIN  Table2 T2 
ON T1.A = T2.A; 


图 7-6 Distributed Key 和 Join Key 相 同 
(2) Join 操 作 的 两 个 表 中 的 一 个 Distributed Key 与 Join Key 相 同 


由 于 其 中 一 个 表 的 Join Key 和 Distributed Key 不 一 致 ， 故 两 个 表 关 联 的 行 不 在 同一 个 数据 库 中 ， 便 无 法 完成 Join 操 作 。 在 这 种 情况 下 就 不 可 避免 地 需要 数据 跨 节点 移动 ， 将 关联 的 行 组 织 在 同一 个 
Segment 实例 ， 最 终 完成 Join 操 作 。Greenplum 可 以 选择 两 种 方式 将 关联 的 行 组 织 在 同一 个 egment 中 ， 其 中 一 个 方式 是 将 Join Key 和 Distributed Key 不 一 致 的 表 按 照 关 联 字段 重 分 布 ( 即 Redistribute 
Motion) ， 另 一 种 方式 是 可 以 将 Join Key 和 Distributed Key 不 一 致 的 表 在 每 个 segment 广 播 ( 即 Broadcast Motion) ， 也 就 是 每 个 segment 都 复制 一 份 全 量 ， 如 图 7-7 所 示 。 


Redistribution needed. 


SELECT TT 

FROM Table3 T3 
INNER JOIN  Table4 T4 
ON T3.A = TA.B; 


Redistribute T4 rows on column B. 


图 7-7 TAS X *€27 
(3) Join 操 作 的 两 个 表 的 Distributed Key 和 Join Key 都 不 同 


由 于 两 个 表 的 Join Key 和 Distributed Key 都 不 一 致 ， 故 两 个 表 关 联 的 行 不 在 同一 个 数据 库 中 ， 便 无 法 完成 Join 操 作 。 同 样 在 这 种 情况 下 ， 一 种 方式 将 两 个 表 都 按照 关联 字段 重 分 布 〈( 即 Redistribute 
Motion) ， 另 一 种 方式 可 以 将 其 中 一 个 表 在 每 个 egment 广 播 ( 即 Broadcast Motion) ， 也 就 是 每 个 egment 都 复制 一 份 全 量 ， 如 图 7-8 所 示 。 


Redistribution needed. 


SELECT TP 

FROM Table5 T5 
INNER JOIN  Table6 T6 
ON T5.B = T6.C; 


Redistribute T5 rows in spool 
on column B. 


Redistribute T6 rows in spool 
on column C. 


图 7-8 MARREN 


综合 上 面 讨论 的 三 种 情况 ， 我 们 可 以 看 出 ，Greenplum 主 要 采用 了 Redistribute Motion 和 Broadcast Motion 这 两 方式 来 解决 跨 节点 关联 这 个 难点 。 在 Greenplum 具 体 分 析 及 选择 执行 计划 时 ， 选 择 哪 
一 种 方式 会 基于 执行 计划 的 成 本 ， 这 部 分 内 容 在 第 ?5 章 中 已 经 详细 介绍 了 。 


7.7 “分布 式 事务 


分 布 式 事务 处 理 是 指 一 个 事务 可 能 涉及 多 个 数据 库 操作 ， 而 分 布 式 的 关键 在 于 两 阶段 提交 (Two Phase Commit, 2PC) 。 两 阶段 提交 用 于 确保 所 有 分 布 式 事务 能 够 同时 提交 或 者 回 滚 ， 以 便 数 据 库 能 
够 处 于 一 致 性 状态 。 


分 布 式 事务 处 理 的 关键 是 必须 有 一 种 方法 可 以 知道 事务 在 任何 地 方 所 做 的 所 有 动作 ， 提 交 或 回 滚 事务 必须 产生 一 致 的 结果 (全 部 提交 或 全 部 回 滚 ) ， 所 以 就 需要 有 一 个 事务 协调 器 来 负责 处 理 每 一 个 数 
据 库 的 事务 。 在 Greenplum 中 ，Master 就 充当 了 这 样 一 个 角色 。 


两 阶段 提交 顾名思义 把 事务 提交 分 成 两 个 阶段 : 


第 一 阶段 ，Master 向 每 个 Segment 发 出 “准备 提交 ”请 求 ， 数 据 库 收 到 请 求 后 执行 相同 的 数据 修改 和 日 志 记 录 等 处 理 ， 处 理 完成 后 只 是 把 事务 的 状态 改 成 “可 以 提交 ”， 然 后 把 执行 的 结果 返回 给 
Master, 


第 二 阶段 ，Master 收 到 回应 后 进入 第 二 阶段 ， 如 果 所 有 segment 都 返回 成 功 ， 那 么 Master 向 所 有 的 Segment 发 出 “确认 提交 ”请 求 ， 数 据 库 服 务 器 把 事务 的 “可 以 提交 ”状态 改 为 “提交 完成 ” 状 


zx 


态 ， 这 个 事务 就 算 正 常 完成 了 ， 如 图 7-9 所 示 ; 如 果 在 第 一 阶段 内 有 Segment 执行 发 生 了 错误 ，Master 收 不 到 Segment 回 应 或 者 Segment 返回 失败 ， 则 认为 事务 失败 ， 回 撤 事务 ，Segment 收 到 Rollback 
的 命令 ， 即 将 当前 事务 全 部 回 滚 ， 如 图 7-10 所 示 。 


MASTER 


1.24 2.2] 7€ 


Seg1 | OTI 


图 7-9 ”两 阶段 提交 正常 的 流程 


MASTER 


2. 失 败 3. 问 深 


Seg1 To 


图 7-10 ”两 阶段 提交 失败 的 流程 


从 图 7-10 的 流程 可 以 看 出 ， 两 阶段 提交 并 不 能 保证 数据 一 定 会 恢复 到 一 致 性 状态 。 例 如 ， 当 Master 向 Segment 发 出 提交 命令 的 时 候 ， 在 提交 过 程 中 ， 有 一 个 segment 失败 了 ， 但 是 其 他 Segment 已 经 
提交 成 功 了 ， 那 么 这 个 事务 是 不 能 再 次 回 滚 的 ， 这 样 就 会 造成 不 一 致 的 情况 。 


两 阶段 提交 的 核心 思想 就 是 将 可 能 发 生 不 一 致 的 时 间 降低 到 最 小 ， 因 为 提交 过 程 对 数据 库 来 说 应 该 是 一 个 瞬间 完成 的 动作 ， 而 且 发 生 错 误 的 概率 极 小 ， 危 险 期 比较 短 。 


在 gp_distributed_xacts 视 图 中 ， 记 录 了 正在 进行 的 分 布 式 事务 的 状态 。gp_distributed log 记 录 了 分 布 式 事务 的 历史 信息 ， 这 个 视图 中 应 该 包括 提交 跟 回 滚 事 务 的 信息 ， 但 是 在 实际 测试 过 程 中 ， 却 只 
包括 了 提交 的 事务 信息 。 下 面 做 个 实验 演示 下 。 


现在 的 Greenplum 有 一 个 连接 ， 就 是 当前 的 连接 ， 没 有 其 他 连接 。 当 还 没有 事务 时 ， 如 图 7-11 所 示 。 


testDB-4 select * from gp distributed xacts; 
distributed xid | distributed_id 


图 7-11 无 事务 状态 


当前 没有 事务 ， 所 以 显示 “Active Not Distributed”。 接 下 来 启动 一 个 事务 ,创建 一 个 表 后 将 其 提交 ， 如 图 7-12 所 示 。 


testDB-* Fires 

REGIN 

testDB=# select * from gp distributed xacts; 
distributed. ce 1 IC H- | 


testDB-£s create table test trans(a int) distributed bya); 
CREATIE TABLE 

testDB-4 end; 

COMMIT 


图 7-12 开启 事务 
这 个 时 候 事 务 正 在 运行 ， 状 态 变 成 了 “Active Distributed" 。 在 事务 成 功 提交 后 ， 我 们 查询 下 gp_distributed log 中 的 状态 ， 如 图 7-13 所 示 。 
testDB=# select dbid,distributed xid,distributed 1d,status 
testDB-4 from gp distributed log 


testDB-4 where distributed id- 1335169489-0000000824 '; 
dbid | distributed. xid | distributed id 


824 | 133 5169489- 0000000824 | Committed 


图 7-13 事务 日 志 


再 看 一 下 每 个 egment 的 状态 ， 如 图 7-14 所 示 。 


testDB=# select dbid,distributed xid,distributed id,status 
testDBE-4 (from gp dist Jrandom( gp distributed EI ) 
LestDB- # where distributed 1d= 1335169489-0000000824 ' 

| distributed xid | distributed id ^ status 


13 35169489- 0000000824 | Committed 
1335169489-0000000824 | committed 
1335169489-0000000824 || Committed 
1335169489-0000000824 || Committed 
1335169489-0000000824 || Committed 
1335169489-0000000824 || Committed 


图 7-14 ”所 有 Segment 的 事务 日 志 


所 有 的 状态 都 显示 了 这 个 事务 已 提交 


在 大 数据 时 代 ， 基 本 上 有 两 大 阵营 ,分 析 型 RDBMS 和 Hadoop 生 仿 系 统 。RDBMS 主 要 用 于 结构 化 数据 分 析 ， 商 业 产 品 有 Oracle Exadata、EMC Greenplum, IBM Netezza, SAP SybaselQ、HP 
Vertica、Teradata 等 ， 开 源 项 目 有 C-Store、MonetDB、VectorWise、lnfobright 等 。 而 Hadoop 生 态 系统 主要 用 于 非 结 构 化 数据 分 析 ， 核 心 是 Map/Reduce。 接 下 来 我 们 简单 分 析 几 个 大 数据 分 析 方 


(1) Hadoop 
Hadoop 是 Apache 下 的 一 个 项 目 ， 由 HDFS、Map/Reduce、HBase、Hive 和 ZooKeeper 等 成 员 组 成 ， 如 图 7-15 所 示 。 其 中 ，HDFS 和 MapReduce 是 两 个 最 基础 、 最 重要 的 成 员 。 


HDFS 是 Google GFs 的 开源 版 本 ， 一 个 高 度 容 错 的 分 布 式 文件 系统 ， 它 能 够 提供 高 吞吐 量 的 数据 访问 ， 适 合 存储 海量 (PBR) 的 大 文件 (通常 超过 64MB) ， 其 原理 示意 如 图 7-16 所 示 。 


Pig (Data Flow) || Hive (SQL) 


Zookeepr (Coordination) 
Avro (Serialization) 


图 7-15 ”Hadoop 生 态 系统 


HDFS Architecture 


Metadata (Name, replicas, ...). 
| /home/foo/data, 3, vis 


Metadata ops 


Client Block ops 


Reád Datanodes N Datanodes 


Heplication 


图 7-16 HDFS4& f 2534 


Hadoop Map/Reduce 是 一 个 使 用 简易 的 软件 框架 ， 基 于 它 写 出 来 的 应 用 程序 能 够 运行 在 由 上 干 个 商用 机 器 组 成 的 大 型 集群 上 ， 并 以 一 种 可 靠 容错 的 方式 并 行 处 理 上 T 级 别 的 数据 集 。Map 负 责 将 数据 
打 散 ，Reduce 负 责 对 数据 进行 聚集 ， 用 户 只 需要 实现 Map 和 Reduce 两 个 接口 ， 即 可 完成 TB 级 数据 的 计算 ， 常见 的 应 用 包括 : 日 志 分 析 和 数据 挖掘 等 数据 分 析 应 用 。 另 外 ， 还 可 用 于 科学 数据 计算 ， 如 圆周 
率 PI 的 计算 等 。Hadoop Map/Reduce 的 实现 也 采用 了 MastervSslave 结 构 。Master 叫 做 JobTracker， 而 Slave 叫 做 TaskTracker。 用 户 提交 的 计算 叫做 Job， 每 一 个 Job 会 被 划分 成 若干 个 Tasks。 
JobTracker 负 责 Job 和 Tasks 的 调度 ， 而 TaskTracker 负 责 执 行 Tasks。 


(2) Teradata 


Teradata 是 用 于 世界 上 最 大 的 商用 数据 库 的 关系 数据 库 管理 系统 。 目 前 的 技术 允许 数据 库 有 数 百 Terabyte 字 节 的 容量 ， 这 就 使 Teradata 成 为 一 个 大 型 数据 库 应 用 的 正确 选择 。 而 Teradata 数 据 库 系统 
也 可 以 只 有 10GB 那 么 小 。 由 于 并 行 性 能 和 可 扩展 能 力 ，Teradata 可 以 使 一 个 系统 通过 线性 扩展 从 一 个 单一 的 节点 开始 扩展 为 多 个 节点 的 系统 。Teradata 在 整体 上 是 按 Shared-Nothing 架 构 体系 进行 组 织 


的 ， 它 的 定位 就 是 大 型 数据 库 系 统 ， 定 位 比较 高 。 由 于 Teradata 通 常 被 用 于 OLAP 应 用 ， 因 此 单机 的 Teradata 系 统 很 少见 ， 即 使 是 单机 系统 ，Teradata 也 建议 使 用 MP 结构 尽 可 能 地 提供 更 好 的 数据 库 性 


Sb 
月 6。 


根据 Shared-Nothing 的 组 成 结构 特点 ， 在 物理 布局 上 ，Teradata 系 统 主要 包括 处 理 节点 (Node) 、 用 于 节点 间 通 信 的 内 部 高 速 互 联 (InterConnection) 、 数 据 存 储 介质 (通常 是 磁盘 阵列 ) 。 每 个 
节点 都 是 SMP (对 称 多 处 理 器 结构 ) 结构 的 单机 ， 多 个 节点 一 起 构成 一 个 MPP (海量 并 行 处 理 器 结构 ) 系统 ， 多 个 节点 之 间 的 内 部 高 速 互 联 是 通过 一 种 被 称 为 BYNET 的 硬件 来 实现 的 ， 整 个 系统 的 组 成 如 图 
7-17 所 示 。 


MPP 数据 高 速 变 换 层 C 


SMP 处 理 器 节操 


光纤 VD 连接 


疝 性 能 磁盘 阵列 


ER 


图 7-17 Teradata 系 统 整 体 结构 


(3) IBM Netezza 


Netezza 是 专门 的 数据 仓库 数据 库 。Netezza 将 存储、 处 理 、 数 据 库 和 分 析 融 入 到 一 个 高 性 能 数据 仓库 设备 中 ， 该 设备 专 为 使 大 数据 高 级 分 析 更 简单 、 更 迅捷 和 更 易 用 而 设计 。Netezza 是 软件 与 硬件 不 
可 分 离 的 紧密 结合 体 ， 无 缝 地 整合 数据 库 管理 系统 (DBMS) 、 服 务 器 (Server) 和 人 存储 设备 (Storage) ， 不 需要 复杂 配置 和 调 优 就 可 以 取得 非常 优异 性 能 。 


Netezza 的 AMPP (Asymmetric Massively Parallel Processing) 是 一 个 两 层 结 构 ， 如 图 7-18 所 示 ， 专 门 为 了 处 理 多 用 户 的 大 数据 量 查 询 而 设计 。AMPP 结 构 是 SMP 前 端 和 Shared-Nothing 的 MPP 后 
端的 完美 结合 。 前 端 是 SMP 的 高 性 能 Linux 主 机 ， 其 主要 功能 是 通过 标准 的 接口 (SQL、ODBC、JDBC、OLE DB) 对 外 提供 服务 。SMP 主 机 负责 编译 从 应 用 程序 发 出 的 查询 请 求 ， 生 成 优化 过 的 可 执行 代码 
片段 ， 称 之 为 snippet， 然 后 分 发 这 些 代码 片段 到 所 有 的 S-Blades 上 并 行 执行 。 当 所 有 的 3-Blades 都 执行 完毕 时 ，SMP 主 机 汇总 结果 后 把 最 终 的 结果 返回 给 应 用 程序 。 后 端 由 大 量 的 S-Blades 组 成 。 主 要 的 
数据 操作 过 程 都 是 在 S-Blades 上 完成 的 。S-Blades 之 间 是 相互 独立 的 ， 每 个 3-Blades 都 会 占有 自己 磁盘 和 数据 片 (data slice) ， 在 并 行 处 理 的 时 候 并 不 会 相互 影响 。 这 种 结构 的 好 处 是 可 以 通过 增加 9- 
Blades 节 点 和 其 所 使 用 的 磁盘 来 使 性 能 得 到 近似 线性 的 提升 。Netezza 1000 的 S-Blades 数 量 可 以 扩展 到 120 个 。 


(4) Oracle Exadata 


Oracle Exadata 也 叫 (HP Oracle Exadata) 是 一 个 高 性 能 的 存储 软件 和 硬件 产品 系列 ， 克 服 了 传统 存储 系统 的 局 限 性 ， 它 通过 采用 大 量 的 并 行 架 构 ， 显 著 增加 了 数据 库 服 务 器 和 存储 系统 之 间 的 数据 
带宽 。 此 外 ， 智 能 存储 软件 卸载 了 Oracle 11g 服 务 器 的 数据 密集 型 查询 处 理 ， 并 使 查询 处 理 更 贴近 数据 ， 其 结果 是 ， 通 过 更 高 的 带宽 连接 加 快 了 并 行 数据 处 理 并 减少 了 数据 迁移 量 。 
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图 7-18 AMPP 架 构 


Oracle Exadata 提 供 一 种 混合 式 的 数据 库 架构 ， 即 Shared-Nothing 与 Shared-Disk 架 构 相 结合 ， 有 效 解 决 了 两 者 的 冲突 ,吸取 两 种 架构 长 处 : 既 可 以 满足 OLTP 的 高 并 发 、 高 可 用 特点 ; 又 可 以 满足 
OLAP 的 大 数据 量 处 理 要 求 。 整 体 架构 如 图 7-19 所 示 。 


单 节点 数据 库 RAC $ T ra ict Ee 


数据 库 处 理 层 (Share Disk) 


超 高 速 并 上 友 网 络 层 和 一 一 InfiniBand 交换 阿 络 


Exadata Cell Exadata Cell 
3333331322323 
7113321333335 


Exadata Cell 


智能 存储 层 (Share Nothing) MUEVEN 
EEEEEE 


图 7-19 ”Exadata 架 构 


7.9 小 结 


本 章 从 并 行 计算 和 并 行 数据 库 出 发 ， 讲 解 了 Greenplum 的 总 体 架构 ， 分 析 了 如 何 实现 高 可 用 、 跨 库 关联 以 及 如 何 处 理 分 布 式 事务 等 ， 最 后 还 简单 介绍 了 其 他 大 数据 分 析 方 案 ， 比 如 Hadoop、Teradata 
等 。 经 过 本 章 的 学 习 ， 我 们 能 够 知道 数据 是 如 何在 集群 中 存放 ， 了 人 解 如 何 才能 最 大 的 发 挥 分 布 式 计算 的 并 行 优势 。 
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s48 ”Greenplum 线 上 环境 部 署 
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e 第 15 章 ”使 用 Greenplum 的 常见 报错 及 小 技巧 


第 8 章 ”Greenplum 线 上 环境 部 署 


本 章 开 始 讲 解 如 何 搭 建 一 个 高 性 能 、 安 全 可 靠 、 可 扩展 、 可 管理 的 Greenplum 集 群 。Greenplum 数 据 库 的 性 能 由 最 慢 的 Segment 决 定 ， 因 此 要 确保 基本 的 运行 Greenplum 数 据 库 的 硬件 与 操作 系统 在 
同一 个 性 能 级 别 ， 并 建议 Greenplum 数 据 库 系统 中 所 有 的 Segment 机 器 有 一 样 的 资源 和 配置 。 


c— 


8.1 服务 器 硬件 选 型 


数据 库 服 务 器 硬件 选 型 应 该 遵循 以 下 几 个 原则 。 
(1) 高 性 能 原则 


保证 所 选 购 的 服务 器 ， 不 仅 能 够 满足 现 有 应 用 的 需要 ， 而 县 能够 满足 一 定时 期 内 业务 量 增长 的 需要 。 对 于 数据 库 而 言 ， 数 据 库 性 能 依赖 于 硬件 的 性 能 和 各 种 硬件 资源 的 均衡 ，CPU、 内 存 、 磁 盘 、 网 络 
这 几 个 关键 组 件 在 系统 中 都 很 关键 ， 如 果 过 分 突出 某 一 方面 硬件 资源 则 会 造成 大 量 的 资源 浪费 ， 而 任何 一 个 硬件 性 能 差 都 会 成 为 系统 的 瓶颈 ， 故 在 硬件 选择 的 时 候 ， 需 要 根据 应 用 需求 在 预算 中 做 到 平衡 。 


(2) 可 靠 性 原则 

不 仅 要 考虑 服务 器 单个 节点 的 可 靠 性 或 稳定 性 ， 而 且 要 考虑 服务 器 与 相关 辅助 系统 之 间 连 接 的 整体 可 靠 性 。 

(3) 可 扩展 性 原则 

需要 服务 器 能 够 在 相应 时 间 根 据 业 务 发 展 的 需要 对 其 自身 进行 相应 的 升级 ， 如 CPU 型 号 升级 、 内 存 扩大 、 硬 盘 扩大 、 更 换 网 卡 等 。 
(4) 可 管理 性 原则 


需要 服务 器 的 软 硬 件 对 标准 的 管理 系统 提供 支持 。 
8.1.1 CPU 


目前 ， 在 做 CPU 选择 方案 时 ， 主 要 考虑 以 下 两 个 方面 。 

` Intel 还 是 AMD 

* 更 快 的 处 理 器 还 是 更 多 的 处 理 器 

Intel 作 为 单 核 运算 速度 方面 的 领导 者 ， 其 CPU 及 相关 组 件 相 对 较 贵 ， 而 AMD 在 多 核 处 理 技术 方面 表现 优异 ， 仍 不 失 为 一 个 较 好 的 选择 。 

如 果 仅 有 较 少 进程 运行 在 单个 处 理 器 上 ， 则 可 以 考虑 配备 更 快 的 CPU。 相 反 ， 如 果 大 量 并 发 进程 运行 在 所 有 处 理 器 上 ， 则 考虑 配备 更 多 的 核 。 


一 台 服 务 器 上 CPU 的 数量 决定 部 署 到 机 器 上 的 Greenplum 数 据 库 9egment 实 例 的 数量 ， 比 如 一 个 CPU 配置 一 个 主 Segment。 


8.1.2 AF 


内 存 是 计算 机 中 重要 的 部 件 之 一 ， 它 是 与 CPU 进行 沟通 的 桥梁 。 计 算 机 中 所 有 程序 的 运行 都 是 在 内 存 中 进行 的 ， 因 此 内 人 存 的 性 能 对 计算 机 的 影响 非常 大 。 内 存 的 选择 总 体 上 来 说 是 越 大 越 好 ， 不 过 当 内 
存 足以 容纳 所 有 业务 数据 时 ， 则 必须 提升 CPU 性 能 才能 获得 性 能 的 提升 。 


在 Greenplum 中 ， 内 存 主要 用 于 在 SQL 执行 过 程 中 保存 中 间 结 果 (如 排序 、HashJoin、 数 据 广播 等 ) ， 如 果 内 存 不 够 ，Greenplum 会 选择 使 用 磁盘 来 缓存 数据 ， 这 样 就 会 大 大 降低 SQL 执行 的 性 能 。 
另外 ， 对 于 处 理 像 数 据 库 这 样 的 海量 数据 ， 并 且 内 存 远 小 于 数据 存储 的 情况 ， 如 果 内 存 已 经 够 用 ， 通 过 增加 内 存 来 获取 性 能 的 提升 则 非常 细微 。 对 于 Greenplum 这 种 数据 库 系统 ， 磁 盘 的 吞吐 量 决定 着 
Greenplum 的 性 能 ， 磁 盘 吞 吐 越 高 性 能 越 好 。 


8.1.3 ”磁盘 及 硬盘 接口 


硬盘 分 为 固态 硬盘 (SSD) 和 机 械 硬 盘 (HDD) ，3SSD 采 用 闪存 颗粒 来 存储 ，HDD 采 用 磁性 碟 片 来 存储 。 
硬盘 接口 主要 有 如 下 几 类 。 
(1) ATA 


全 称 Advanced Technology Attachment， 是 用 传统 的 40-pin 并 口 数 据 线 连接 主板 与 硬盘 的 。 外 部 接口 速度 最 大 为 133MB/s。 因 为 并 口 线 的 抗 干扰 性 太 差 ， 且 排 线 占 空 间 ， 不 利 计 算 机 散热 ， 将 逐渐 
被 SATA 所 取代 。 


(2) IDE 
全 称 Integrated Drive Electronics， 即 电子 集成 驱动 器 ， 是 把 “硬盘 控制 器 ”与 “ 盘 体 ”集成 在 一 起 的 硬盘 驱动 器 。 
(3) SCSI 小 型 计算 机 系统 接口 


同 IDE 和 ATA 完 全 不 同 的 接口 ，IDE 接 口 是 普 通 PC 的 标准 接口 ， 而 SCSI 并 不 是 专门 为 硬盘 设计 的 接口 ， 是 一 种 广泛 应 用 于 小 型 机 上 的 高 速 数 据 传输 技术 。SCSI 接 口 具有 应 用 范围 广 、 任 务 多 、 带 宽大 、 
CPU 占用 率 低 ， 以 及 热 插 拔 等 优点 ， 但 较 高 的 价格 使 得 它 很 难 如 IDE 硬 盘 般 普 及 ， 因 此 SCSI 硬 盘 主要 应 用 于 中 、 高 端 服务 器 中 。 


(4) SATA 
全 称 Serial Advanced Technology Attachment ( 串 行 高 级 技术 附件 ， 一 种 基于 行业 标准 的 串 行 硬件 驱动 器 接口 ) ， 是 由 Intel、IBM、Dell、APT、Maxtor 和 Seagate 公 司 共同 提出 的 硬盘 接口 规范 。 
(5) SAS 


全 称 Serial Attached SCSI ( 串 行 连接 SCSI) ， 缩 写 为 SAS， 是 新 一 代 的 SCSI| 技 术 。 和 现在 流行 的 Serial ATA (SATA) 硬盘 相同 ， 都 采用 串 行 技术 以 获得 更 高 的 传输 速度 ， 并 通过 缩短 连接 线 改善 内 部 


空间 等 。 
(6) SSD 
全 称 Solid State Disk， 即 固态 硬盘 。 目 前 的 硬盘 (ATA 或 SATA) 都 是 磁 碟 型 的 ， 数 据 就 储存 在 磁 碟 扇 区 里 ， 固 态 硬盘 数据 就 储存 在 心 片 里 。 
目前 较为 流行 的 选择 主要 集中 在 SATA 和 SAS 上 ， 这 两 者 的 主要 区 别 如 表 8-1 所 示 。 


表 8-1 SATA 与 SAS 主要 区 别 


mug | aw EE f ra 


在 选择 硬盘 和 硬盘 控制 器 时 ， 确 认 选 择 的 硬盘 控制 器 能 够 包括 硬盘 带宽 之 和 。 假 如 你 有 20 个 70Mbys 内 部 带宽 的 硬盘 ， 为 了 获得 硬盘 最 佳 性 能 ， 需 要 最 少 支持 1.4Gby/s 的 硬盘 控制 器 。 
要 提升 服务 器 MO 吞吐 量 、 可 用 性 及 存储 容量 ， 常 见 的 方法 是 做 RAID， 即 独立 元 余 磁 盘 阵 列 (Redundant Array of Independent Disk, RAID) 。 几 种 常见 的 RAID 技 术 如 下 。 

(1) RAID 0 

从 严格 意义 上 说 ，RAID 0 不 是 RAID， 因 为 它 没有 数据 元 余 和 校 验 。RAID 0 技术 只 是 实现 了 条 带 化 ， 具 有 很 高 的 数据 传输 率 ， 最 高 的 存储 利用 率 ， 但 是 RAID 中 硬盘 数 越 多 ， 安 全 性 越 低 。 
(2) RAID 1 


通常 称 为 RAID 镜 像 。RAID 1 主要 是 通过 数据 镜像 实现 数据 元 余 ， 在 两 对 分 离 的 磁盘 上 产生 互 为 备份 的 数据 ， 因 此 RAID 1 具有 很 高 的 安全 性 。 但 是 RAID 1 空间 利用 率 低 ， 磁 盘 控 制 器 负载 大 ， 因 此 只 有 
当 系 统 需要 极 高 的 可 靠 性 时 ， 才 选择 RAID 1。 


(3) RAID 1+0 


RAID 0+1 至 少 需要 4 块 硬盘 才 可 以 实现 ， 不 过 它 综合 了 RAID 0 和 RAID 1 的 特点 ， 独 立 磁盘 配置 成 RAID 0， 两 套 完整 的 RAID 0 互相 镜像 。 它 的 读 写 性 能 出 色 ， 安 全 性 也 较 高 。 但 是 ， 构 建 RAID 0+1 阵 
列 的 成 本 投入 大 ， 数 据 空间 利用 率 只 有 50%， 因 此 还 不 能 称 为 经 济 高 效 的 方案 。 


(4) RAID 5 
RAID 5 是 目前 应 用 最 广泛 的 RAID 技 术 。 各 块 独立 硬盘 进行 条 带 化 分 割 ， 相 同 的 条 带 区 进行 奇偶 校 验 ( 异 或 运算 ) ， 校 验 数据 平均 分 布 在 每 块 硬盘 上 。RAID 5 具有 数据 安全 、 读 写 速 度 快 、 空 间 利用 率 
高 等 优点 ， 应 用 非常 广泛 。 但 不 足 之 处 是 ， 如 果 1 块 硬盘 出 现 故 障 ， 整 个 系统 的 性 能 将 大 大 降低 。 


8.1.4 网 络 


Greenplum 数 据 库 互 联 的 性 能 与 segment 上 网 卡 的 网 络 负载 有 关 ， 所 以 Greenplum 服 务 器 一 般 由 一 组 带 有 多 个 网 卡 的 硬件 组 成 。 为 了 达到 最 好 性 能 ，Greenplum 建 议 为 segment 机 器 上 的 每 一 个 主 
Segment 配置 一 个 干 兆 网卡 ， 或 者 配置 每 台 机 器 都 有 万 兆 网 卡 。 


如 果 Greenplum 数 据 库 网 络 集群 中 有 多 个 网 络 交 换 机 ， 那 么 交换 机 之 间 均 衡 地 分 配子 网 较为 理想 ， 比 如 每 个 机 器 上 的 网 卡 1 和 2 用 其 中 一 个 交换 机 ， 网 卡 3 和 4 使 用 另 一 个 交换 机 。 


8.2 ”服务 器 系统 参数 调整 

对 于 不 同 的 应 用 场景 ， 每 一 种 硬件 都 有 不 同 的 参数 配置 ， 通 过 参数 调整 ， 可 以 极 大 地 提高 读 写 性 能 。 例 如 ， 对 于 OLTP 数 据 库 而 言 ， 关 注 的 是 磁盘 的 随机 读 写 ， 提 高 单 次 读 写 的 性 能 ; 而 对 于 OLAP 数 据 
库 而 言 ， 最 关注 的 是 磁盘 的 顺序 读 写 ， 重 点 在 于 提高 每 次 磁盘 读 写 的 吞吐 量 。 

Greenplum 有 目前 支持 的 操作 系统 有 以 下 几 种 。 


: SUSE Linux SLES 10.2 or higher 


- CentOS 5.0 or higher 
- RedHat Enterprise Linux 5.0 or higher 
: Oracle Unbreakable Linux 5.5 
- Solaris x86 v10 update 7 
一 般 情 况 下 ， 需 要 在 操作 系统 中 修改 以 下 三 种 类 型 的 参数 。 
(1) 共享 内 存 
Greenplum 只 有 在 操作 系统 中 内 存 大 小 配置 适当 的 时 候 才 能 正常 工作 。 大 部 分 操作 系统 的 共享 内 存 设置 大小， 不 适合 Greenplum 的 场景 ， 因 为 这 样 可 以 避免 进程 因为 内 存 占 用 过 高 被 操作 系统 停止 。 
(2) 网 络 
Greenplum 的 数据 分 布 在 各 个 节点 上 ， 因 此 在 计算 过 程 中 经 常 需 要 将 数据 移动 到 其 他 节点 上 进行 计算 ， 这 时 ， 合 理 的 网 络 配置 就 显得 格外 的 重要 。 
(3) 系统 对 用 户 的 限制 


操作 系统 在 默认 情况 下 会 对 用 户 进行 一 些 资 源 的 限制 ， 以 避免 某 个 用 户 占 用 太 多 资源 导致 其 他 用 户 资源 不 可 用 。 对 于 数据 库 来 说 ， 只 会 有 一 个 操作 系统 有 用户， 这 些 限制 都 必须 取消 掉 ， 例 如 Greenplum 
会 同时 打开 很 多 文件 句柄 ， 而 操作 系统 默认 的 文件 句柄 数 一 般 很 小 。 


在 笔者 所 在 公司 ， 用 得 最 多 的 是 RedHat 和 Solaris， 不 同 的 操作 系统 版 本 ， 参 数 配置 是 不 一 样 的 ， 下 面 就 列举 Solaris 跟 RedHat 这 两 种 操作 系统 进行 配置 。 


8.2.1 _ Solaris 参 数 修改 


在 Solaris 下 ， 分 别 修 改 一 下 这 些 参数 文件 使 得 Greenplum 能 够 发 挥 出 更 好 的 性 能 。 


(1) 修改 /etc/system 文 件 


set rlim fd cur=65536 

set zfs:zfs arc max=0x600000000 
set pcplusmp:apic panic on nmi-1 
set nopanicdebug-1 

set zfs:zfs prefetch disable - 0 


其 中 set rlim fd cur=65536 修 改 了 文件 句柄 数 ， 而 set zfs: zfs arc max=0x600000000 用 于 限制 ZFs 使 用 的 最 大 内 存 。 


最 后 一 个 参数 zfs: zfs_prefetch_disable=0 是 用 于 优化 ZFS 文 件 系统 的 读 取 性 能 的 ， 通 过 这 个 参数 ， 可 以 打开 ZFSs 文 件 系统 的 预 读 功能 。 在 进行 磁盘 读 取 的 时 候 ， 预 先 将 当前 读 取 的 数据 块 之 后 的 数据 块 
也 读 取 进来 。 了 解 磁盘 原理 的 读者 应 该 清楚 ， 在 顺序 读 取 文件 时 使 用 预 读 功 能 可 以 大 大 提高 磁盘 的 吞吐 ， 而 Greenplum 中 的 大 部 分 数据 都 是 连续 存储 的 ， 很 符合 这 种 场景 。 


(2) 修改 /etc/project 文 件 


将 default: 3:::: 这 一 行 修改 为 : 


default:3:default project:::process.max-filedescriptor- (priv,252144,deny) ; proje-ct.max-sem-ids- (priv,1024,deny) ; project .max-shm-memory- (priv,21474836480, deny) 


Rrhproject.max-shm-memory- (priv, 21474836480, deny) 用 于 限制 共享 内 存 使 用 ， 需 大 于 shared buffers 总 和 。 


(3) 修改 /etc/user attr 文 件 ， 配 置 gpadmin 的 用 户 权限 


gpadmin::::defaultpriv-basic,dtrace user,dtrace proc 


(4) 修改 /etc/hosts 


这 个 文件 必须 包括 集群 中 所 有 服务 器 ， 并 且 每 台 服 务 器 的 每 一 张 网 卡 都 必须 分 配 一 个 hostname， 所 有 服务 器 的 hosts 文 件 保 持 一 致 。 以 下 的 hosts 文 件 对 应 的 每 台 机 器 上 分 别 有 4 张 网 卡 ， 每 张 网 卡 都 有 


对 应 的 hostname，mdw、smdw 分 别 是 主 备 Master，sdw1、sdw2 分 别 是 两 个 Segment: 


127.0.0.1 localhost loghost 
10.1.18.254 greenplum-1 gml mextl 
192.168.0.254 ml mgdw 
192.168.1.254 m2 
192.168.2.254 m3 
192.168.3.254 m4 
10.1.18.253 greenplum-2 gm2  smexti 
192.168.0.253 sml  smdw 
192,.168.1.253 sm2 
192.168.2.253 sm3 
192.168.3.253 sm4 
10.1.18.] greenplum-3 gm3  sdwl-extl 
192.168.0.7 sdwl-1 sdw1 
192.168.1.1 sdw1l-2 
92.168.2.1 Sdw1-3 
92.168.3. sdw1l-4 
0.1.18.2 greenplum-4 gm4  sdw2-extl 
92.168.0.2 sdw2-1  sdw2 
92.168.1.2 Sdw2-2 
92.168.2.2 Sdw2-3 
92.168.3.2 Sdw2-4 


(5) 创建 用 户 组 


groupadd -g 3030 gpadmin 
groupadd -g 3040 gpmon 


(6) 创建 数据 库 用 户 


useradd -u 3030 -g gpadmin -d /home/gpadmin -s /bin/bash -m gpadmin 
useradd -u 3040 -g gpmon -d /home/gpmon -s /bin/bash -m gpmon 


(7) 配置 时 钟 同步 


Network Time Protocol (NTP) 是 使 计算 机 时 间 同 步 化 的 一 种 协议 ， 它 可 以 使 计算 机 对 其 服务 器 或 时 钟 源 做 同步 化 ， 它 可 以 提供 高 精准 度 的 时 间 校 正 。 在 Linux 中 ， 自 带 了 实现 NTP 的 服务 ， 名 为 
ntpd。 通 过 这 个 服务 ， 可 以 将 所 有 Segment 的 机 器 上 的 时 间 都 调整 成 同一 个 时 间 ， 避 免 因 为 时 间 错 乱 导 致 Greenplum 不 可 用 。 


修改 /etc/inet/ntpd.conf， 配 置 如 下 : 


# server 0.0.0.0 

server 127.127.1.0 

enable auth monitor 
driftfile /var/ntp/ntp.drift 
statsdir /var/ntp/ntpstats/ 


filegen peerstats file peerstats type day enable 


filegen loopstats file loopstats type day enable 
filegen clockstats file clockstats type day enable 
keys /etc/inet/ntp.keys 

trustedkey 0 


requestkey 0 controlkey 


在 Master 启 动 NTP 服 务 : 


touch /var/ntp/ntp.drift 
svcadm enable ntp 


前 面 已 经 配置 好 了 Master 上 面 的 NTP 服 务 ， 接 下 来 修改 segment 服务 器 的 NTP 服 务 ， 使 得 Segment 上 的 时 间 与 Master 上 一 致 ， 配 置 如 下 (配置 完成 后 ， 重 启 NTP 服 务 即 可 ) : 


server 192.168.1.253 
server 192.168.1.254 


(8) 配置 ZFs 存 储 池 


Solaris 的 ZFS 文 件 系 统 可 以 很 方便 地 对 数据 进行 快照 ， 对 于 数据 的 备份 恢复 很 有 用 ， 是 一 个 很 优秀 的 文件 系统 。 下 面 将 介绍 如 何 创建 ZFS 存 储 池 ， 示 例 机 器 中 有 14 张 磁盘 ， 创 建 了 两 个 raidz 组 ， 每 个 组 
有 6 张 盘 ， 总 共 12 张 盘 ， 剩 下 2 张 盘 作为 备 盘 ， 以 备 有 磁盘 损坏 时 可 以 马上 切换 到 备 盘 上 。 创 建 命令 如 下 : 


zpool create -f data \ 

raidz c1t2d0 c1t3d0 c1t4d0 c1t5d0 c1t6d0 c1t7d0 \ 
raidz clt9q0 c1t10d0 c1t11d0 clt12q0 clt13q0 c1t14d0 \ 
Spare clt8d0 c1t15d0 


在 Zpool 上 创建 ZFS 文 件 系统 : 


S create data/mast 
S create data/pl 
fs create data/p2 
S 
S 


create data/ml 
create data/m2 


N NNNN 


8.2.2 Linux&e ME 


在 Linux 下 ， 对 应 共享 内 存 ， 网 络 、 用 户 限制 的 参数 修改 如 下 。 


“ /etc/sysctl.conf， 修 改 共 享 内 存 及 网 络 ipv4 的 配置 : 


kernel.sem = 250 64000 100 512 
kernel.shmmax = 500000000 
kernel.shmmni - 4096 
kernel.shmall = 4000000000 
kernel.sem = 250 64000 100 512 
kernel.sysrq = 1 


l.core uses pid = 1 


kernel.msgmnb = 65536 

kernel.msgmax = 65536 

et.ipv4.tcp syncookies = 1 

.ipv4.ip forward = 0 

.ipv4.conf.default.accept source route = 0 

.ipv4.tcp tw recycle-1 

.tcp max syn backlog-4096 
f.all.arp filter = 1 

.ipv4.conf.default.arp filter - ] 

.Core.netdev max backlog-10000 

vm.overcommit memory-2 
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* 修改 文件 数 ， 进 程 数 的 限制 : 


soft nofile 65536 
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8.2.3 ”系统 参数 及 性 能 验证 


Greenplum 中 提供 了 gpcheck 脚 本 对 系统 参数 进行 校 验 ， 确 保 配置 合理 ， 同 时 还 提供 了 gpcheckperf 对 机 器 进行 性 能 测试 ， 包 括 网 络 性 能 测试 、 磁 盘 MO 吞 吐 测试 、 内 存 带宽 测试 等 。 


(1) 使 用 gpcheck 脚 本 对 系统 参数 进行 验证 ， 命 令 如 下 : 


[root@test /]#gpcheck -h dw-greenplum-1 


20 5:14:24:24:gpcheck:dw-greenplum-1:root-[INFO]:-dedupe hostnames 

20111115:14:24:24:gpcheck:dw-greenplum-1:root-[INFO]:-Detected platform: Generic Solaris Cluster 

20111115:14:24:24:gpcheck:dw-greenplum-1:root-[INFO]:-generate data on servers 

20111115:14:24:25:gpcheck:dw-greenplum-1:root-[INFO]:-copy data files from servers 

20111115:14:24:25:gpcheck:dw-greenplum-1:root-[INFO]:-delete remote tmp files 

20111115:14:24:25:gpcheck:dw-greenplum-1:root-[INFO]:-Using gpcheck config file: /opt/greenplum/greenplum-db-4.1.1.1/etc/gpcheck.cnf 
'default:3::::project.max-sem-ids- (priv, 1024,deny) ; process.max-file-descriptor- (priv,252144,deny) ' 

20111115:14:24:25:gpcheck:dw-greenplum-1:root- [INFO]:-gpcheck completinghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/ 


这 个 脚本 会 配置 一 些 需要 校 验 的 参数 ， 在 $GPHOME/etc/gpcheck.cnf 文 件 中 ， 如 果 参 数 配置 与 gpcheck.cnf 中 的 不 一 致 ， 则 会 报 出 一 条 ERROR。 例 如 ， 在 上 面 这 个 例子 中 ， 错 误 显示 在 /etc/project 


中 没有 配置 相应 的 参数 。 


(2) 网 络 测试 
利用 Greenplum 自 带 的 gpcheckperf 工 具 可 以 很 方便 地 测试 各 节点 间 网 络 连 通 情 况 ， 下 面 通过 示例 来 进行 介绍 。 


网 络 测试 的 机 器 名 列表 如 下 (host.1 文 件 中 ) : 


[gpadminG(dw-greenplum-3 /export/home/gpadmin]#cat host.1 
sdw1-1 
sdw2-1 
sdw3-1 
sdw4-1 
sdw5-1 
sdw6-1 


运行 gpcheckperf 进 行 测试 : 


[gpadmin@dw-greenplum-3 /export/home/gpadmin] #gpcheckperf -d /storagepool/upload -r N -f host.1 


/opt/greenplum/greenplum-db-4.1.1.1/bin/gpcheckperf -d /storagepool/upload -r N -f host.1 


== RESULT 

Netperf bisection bandwidth test 
sdwl-1 -> sdw2-1 = 112.500000 
sdw3-1 -> sdw4-1 = 112.540000 
sdw5-1 -> sdw6-1 = 111.570000 
sdw2-1 -> sdwl-1 = 111.890000 
sdw4-1 -> sdw3-1 = 112.160000 
sdw6-1 -> sdw5-1 = 111.760000 
Summary 

sum = 672.42 MB/sec 

min = 111.57 MB/sec 

max = 112.54 MB/sec 

avg = 112.07 MB/sec 


median = 112.16 MB/sec 


一 组 ， 因 此 当 服 务 器 节点 为 奇数 个 时 ， 其 中 一 组 间 测 试 结果 会 不 理想 ， 需 要 单独 验证 ， 例 如 下 面 是 5 台 服 务 器 节点 的 情况 : 


[gpadmin@dw-greenplum-3 /export/home/gpadmin]#cat host.1 
sdw1-1 
sdw2-1 
sdw3-1 
sdw4-1 
sdw5-1 
[gpadminG(dw-greenplum-3 /export/home/gpadmin] #gpcheckperf -d /storagepool/upload -r N -f host.1 
/opt/greenplum/greenplum-db-4.1.1.1/bin/gpcheckperf -d /storagepool/upload -r N -f host.1 


== RESULT 


Netperf bisection bandwidth test 


sdwl-1 -> sdw2-1 = 112.030000 
sdw3-1 -> sdw4-1 = 112.380000 
sdw5-1 -> sdwl-1 = 85.720000 
sdw2-1 -> sdwl-1 = 104.230000 
sdw4-1 -> sdw3-1 = 112.010000 
sdwl-1 -> sdw5-1 = 111.420000 
Summary: 

sum = 637.79 MB/sec 

min = 85.72 MB/sec 

max = 112.38 MB/sec 

avg = 106.30 MB/sec 

median = 112.01 MB/sec 
[Warning] connection between sdw5-1 and sdwl-1 is no good 


和 sdw1-1 的 网 络 不 是 很 好 ， 需 要 单独 验证 ， 命 令 如 下 : 


[gpadminG(dw-greenplum-3 /export/home/gpadmin]#gpcheckperf -d /storagepool/upload -r N -h sdw5-1 -h sdwl-1 
/opt/greenplum/greenplum-db-4.1.1.1/bin/gpcheckperf -d /storagepool/upload -r N -h sdw5-1 -h sdwl-1 


== RESULT 


Netperf bisection bandwidth test 


sdw5-1 -> sdwl-1 = 2.260000 
sdwl-1 -> sdw5-1 = 112.780000 
Summary 

sum = 225.04 MB/sec 

min = 112.26 MB/sec 

max = 112.78 MB/sec 

avg = 112.52 MB/sec 


median = 112.78 MB/sec 


(3) 文件 系统 性 能 验证 


利用 Greenplum 自 带 的 gpcheckperf 工 具 可 以 很 方便 地 测试 文件 系统 的 读 写 性 能 ， 示 例 代码 如 下 : 


[gpadminG(greenplum-3 /export/home/gpadmin] #gpcheckperf -d /storagepool/gptemppl -d /storagepool/gptempp2/ -d /storagepool/gptempp3/ -d /storagepool/gptempp4/ -d /storagepool/c 
/opt/greenplum/greenplum-db-4.1.1.1/bin/gpcheckperf -d /storagepool/gptemppl -d /storagepool/gptempp2/ -d /storagepool/gptempp3/ -d /storagepool/gptempp4/ -d 


/storagepool/gptempml/ -d /storagepool/gptempm2/ -d /storagepool/gptempm3/ -d 
/storagepool/gptempm4/ -r ds -D -f host.1 


disk write avg time (sec): 93.12 

disk write tot bytes: 257603665920 

disk write tot bandwidth (MB/s): 2644.07 

disk write min bandwidth (MB/s): 489.97 [sdwl-1 

disk write max bandwidth (MB/s): 556.07 [sdw4-1 

-- per host bandwidth -- 
disk write bandwidth ( 
disk write bandwidth ( 


= 


E 


B/s): 530.89 [sdw5-1] 
B/s): 552.01 [sdw3-1] 


M 
M 


[en 


disk write bandwidth (MB/s): 556.07 [sdw4-1 

disk write bandwidth (MB/s): 489.97 [sdw1-1] 

disk write bandwidth (MB/s): 515.14 [sdw2-1] 
disk read avg time (sec): 64.93 
disk read tot bytes: 257603665920 
disk read tot bandwidth (MB/s): 3789.42 


disk read min bandwidth (MB/s): 727.26 [sdw5-1] 
disk read max bandwidth (MB/s): 811.60 [sdw3-1] 
-- per host bandwidth -- 
disk read bandwidth (MB/s): 727.26 [sdw5- 
disk read bandwidth (MB/s): 811.60 [sdw3-1] 
disk read bandwidth (MB/s): 731.38 [sdw4-1] 
disk read bandwidth (MB/s): 760.47 [sdwl-1] 
disk read bandwidth (MB/s): 758.71 [sdw2- 
stream tot bandwidth (MB/s): 38014.82 
stream min bandwidth (MB/s): 7130.14 [sdw2-1] 
stream max bandwidth (MB/s): 8458.92 [sdw3-1] 


-- per host bandwidth -- 


Stream bandwidth (MB/s): 7536.51 [sdw5-1] 
stream bandwidth (MB/s): 8458.92 [sdw3-1] 
stream bandwidth (MB/s): 7398.58 [sdw4-1] 
stream bandwidth (MB/s): 7490.66 [sdw1-1] 
stream bandwidth (MB/s): 7130.14 [sdw2-1] 


8.3 ”计算 节点 分 配 技 5 


Greenplum 软 件 安装 及 数据 库 初 始 化 可 参看 第 2 章 ， 这 里 简单 介绍 一 下 计算 节点 分 配 技 巧 。 


如 果 配 置 了 mirror 节 点 ， 其 会 分 布 在 所 有 Segment 节 点 上 ， 在 默认 情况 下 同一 服务 器 上 主 节 点 对 应 的 所 有 备 节点 会 分 配 在 一 台 服 务 器 上 (这 种 方式 称 为 Grouped Mirror, 可 参考 13.1.1 节 的 介绍 ) ， 这 
样 一 旦 某 一 台 计 算 节 点 死机 ， 所 有 备 节点 会 在 同一 台 服 务 器 上 ， 致 使 性 能 降低 50%， 且 不 利于 数据 恢复 。 在 初始 化 数据 库 时 ， 可 以 指定 -S 参 数 ， 将 同一 服务 器 上 主 节点 对 应 的 备 节点 打 散 至 集群 不 同 服务 器 
上 (这 种 方式 称 为 Spread Mirror， 可 参考 13.1.1 节 的 介绍 ) 。 


84 ”数据库 参 数 介绍 

数据 库 优 化 主要 从 两 个 方面 着 手 。 一 方面 是 提升 CPU、 内 存 、 磁 盘 、 网 络 等 集群 服务 器 的 硬件 配置 ， 另 一 方面 是 优化 提交 到 数据 库 的 语句 。 在 这 里 我 们 简单 介绍 一 下 影响 数据 库 性 能 的 参数 及 其 他 常用 
的 配置 参数 。 

(1) shared buffers 


数据 距离 CPU 越 近 效率 就 越 高 ， 而 离 CPU 由 近 到 远 的 主要 设备 有 寄存 器 、CPU cache, RAM, Disk Drives 等 。CPU 的 寄存 器 和 cache 是 没 办 法 直接 优化 的 ， 为 了 避免 磁盘 访问 ， 只 能 尽 可 能 将 更 多 有 用 
言 息 存放 在 RAM 中 。Greenplum 数 据 库 的 RAM 主 要 用 于 存放 如 下 信息 。 


- 程序 数据 和 堆栈 。 
- postgreSQL shared buffer cacheo 
` kernel disk buffer caches 
. kernel; 
因此 最 大 化 地 保持 数据 库 信 息 在 内 存 中 而 不 影响 其 他 区 域 才 是 最 佳 的 调 优 方 式 ， 但 这 常常 不 是 一 件 容易 的 事情 。 


PostgreSQL 并 非 直接 在 磁盘 上 进行 数据 修改 ， 而 是 将 数据 读 入 shared buffercache， 进 而 PostgreSQL 后 台 进 程 修改 cache 中 的 数据 块 ， 最 终 再 写 回 磁盘 。 后 台 进 程 如 果 在 cache 中 找到 相关 数据 ， 则 
直接 进行 操作 ， 如 果 没 找到 ， 则 需要 从 kernel disk buffer cache 或 者 磁盘 中 读 入 。PostgreSQL 默 认 的 shared buffer 较 小 ， 将 此 cache 调 大 则 可 降低 昂贵 的 磁盘 访问 。 但 是 前 面 提 到 ， 修 改 此 参数 时 一 定 要 
避免 swap 发 生 ， 因 为 内 存 不 仅仅 用 于 shared buffer cache。 刚 开始 可 以 设置 一 个 较 小 的 值 ， 比 如 总 内 存 的 15%， 然 后 逐渐 增加 ， 过 程 中 监控 性 能 提升 和 swap 的 情况 。 


(2) effective cache size 


设置 优化 器 假设 磁盘 高 速 缓存 的 大 小 用 于 查询 语句 的 执行 计划 判断 ， 主 要 用 于 判断 使 用 索引 的 成 本 ， 此 参数 越 大 越 有 机 会 选择 索引 扫描 ， 越 小 越 倾向 于 选择 顺序 扫描 ， 此 参数 只 会 影响 执行 计划 的 选 


(3) work mem 


当 PostgreSQL 对 大 表 进 行 排序 时 ， 数 据 库 会 按照 此 参数 指定 大 小 进行 分 片 排序 ， 将 中 间 结 果 存 放 在 临时 文件 中 ， 这 些 中 间 结 果 的 临时 文件 最 终 会 再 次 合并 排序 ， 所 以 增加 此 参数 可 以 减少 临时 文件 个 数 
进而 提升 排序 效率 。 当 然 如 果 设置 过 大 ， 会 导致 sSwap 的 发 生 ， 所 以 设置 此 参数 时 仍然 需要 谨慎 。 同 样 刚 开始 仍 可 设置 为 总 内 存 的 5%。 


(4) temp buffers 

temp_buffers 即 临时 缓冲 区 ， 用 于 数据 库 访问 临时 表 数 据 ，Greenplum 上 默认 值 为 1M。 可 以 在 单独 的 session 中 对 该 参数 进行 设置 ， 在 访问 比较 大 的 临时 表 时 ， 对 性 能 提升 有 很 大 帮助 。 
(5) client encoding 

设置 客户 端 字符 集 ， 默 认 和 数据 库 encoding 相 同 。 

(6) client min messages 


控制 发 送 至 客户 端的 信息 级 别 ， 每 个 级 别 包括 更 低级 别 的 消息 ， 越 是 低 的 消息 级 别 发 送 至 客户 端的 信息 越 少 。 例 如 ，warning 级 别 包括 warning、error、fatal、panic 等 级 别 的 信息 ， 而 panic 则 只 包括 
panic 级 别 的 信息 。 此 参数 主要 用 于 错误 调试 


(7) cpu index tuple cost 
设置 执行 计划 评估 每 一 个 索引 行 扫描 的 CPU 成 本 。 同 类 参数 还 包括 cpu_operator cost, cpu tuple cost, cursor tuple fraction, 


(8) debug assertions 


打开 各 种 断言 检查 ， 这 是 调试 助手 。 如 果 遇 到 了 奇怪 的 问题 或 数据 库 骨 溃 ， 那 么 可 以 将 这 个 参数 打开 ， 便 于 分 析 错 误 原 因 。 

(9) debug print parse 

当 需 要 查看 查询 语句 的 分 析 树 时 ， 可 以 设置 开启 此 参数 ， 默 认为 off。 

(10) debug print plan 

当 需 要 查看 查询 语句 的 执行 计划 时 ， 可 以 设置 开启 此 参数 ， 默 认为 off。 同 类 参数 包括 debug print prelim plan, debug print rewritten, debug print slice table, 
(11) default tablespace 

指定 创建 对 象 时 的 默认 表 空 间 。 

(12) dynamic library path 

frGUeEERZ S EKaS RI, WIRRTKIBAEBHBR, ÉEEMGXTEERUSSRSSERHUYCU, 

(13) enable bitmapscan 


表示 是 否 允 许 位 图 索引 扫描 ， 类 似 的 参数 还 有 enable groupagg. enable hashagg. enable hashjoin, enable indexscan, enable mergejoin, enable nestloop, enable seqscan, 
enable sort, enable tidscan。 这 些 参数 主要 用 于 控制 执行 计划 。 


(14) gp_autostats mode 


指定 触发 自动 搜集 统计 信息 的 条 件 。 当 此 值 为 on_no_stats 时 ，create table as select 会 自动 搜集 统计 信息 ， 如 果 insert 和 copy 操 作 的 表 没有 统计 信息 ， 也 会 自动 触发 统计 信息 搜集 。 当 此 值 为 
on_change 时 ， 如 果 变 化 量 超过 gp_autostats_ on change _ threshold 参数 设置 的 值 ， 会 自动 触发 统计 信息 搜集 。 此 参数 还 可 设 为 none 值 ， 即 不 自动 触发 统计 信息 搜集 。 


(15) gp enable gpperfmon 

要 使 用 Greenplum Performance Monitor 工 具 ， 必 须 开 启 此 参数 。 

(16) gp external max segs 

设置 外 部 表 数 据 扫描 可 用 segments 数 目 。 

(17) gp fts probe interval 

设置 ftsprobe 进 程 对 segment failure 检 查 的 间隔 时 间 。 

(18) gp fts probe threadcount 

设置 ftsprobe 线 程 数 ， 此 参数 建议 大 于 等 于 每 台 服 务 嚣 Segments 的 数目 。 
(19) gp fts probe timeout 

设置 ftsprobe 进 程 用 于 标识 segment down 的 连接 Segment 的 超时 时 间 。 
(20) gp hashjoin tuples per bucket 

此 参数 越 小 ，hash tables 越 大 ， 可 提升 join 性 能 ， 相 关 参 数 还 有 gp_interconnect hash multiplier, gp interconnect queue depth, 
(21) gp_interconnect setup timeout 

此 参数 在 负载 较 大 的 集群 中 ， 应 该 设置 较 大 的 值 。 

(22) gp interconnect type 

可 选 值 为 TCP、UDP， 用 于 设置 连接 协议 。TCP 最 大 只 允许 1000 个 节点 实例 。 
(23) gp log format 

设置 服务 器 日 志文 件 格式 。 可 选 值 为 csv 和 text。 

(24) gp max databases 

设置 服务 器 允许 的 最 大 数据 库 数 ， 相 关 人 参数 还 有 gp_max filespaces, gp max packet size, gp max tablespaces 
(25) gp resqueue memory policy 


此 参数 允许 none 和 auto 这 2 个 值 ， 当 设置 为 none 时 ， 和 Greenplum 4.1 版 本 以 前 的 策略 一 致 而 设置 为 auto 时 ， 查 询 内 存 使 用 受 statement_ mem 和 资源 队列 的 内 存 限制 ， 而 work_mem、 


— 


max work mem 和 maintenance work mem 这 三 个 参数 将 失效 。 
(26) gp resqueue priority cpucores per se gment 
指定 每 个 Segment 可 用 的 CPU 单元 
(27) gp segment connect timeout 
设置 网 络 连接 超时 时 间 。 
(28) gp set proc affinity 
设置 进程 是 否 绑 定 全 CPU。 


(29) gp set read only 


设置 数据 库 是 否 允 许 写 。 

(30) gp vmem idle resource timeout 

设置 数据 库 会 话 超时 时 间 ， 超 过 此 参数 值 会 话 将 释放 系统 资源 (比如 shared memory) 。 此 参数 越 小 ， 集 群 并 发 度 支 持 越 高 。 
(31) gp vmem protect limit 


设置 服务 器 中 postgres 进 程 可 用 的 总 内 存 ， 建 议 设置 为 CCphysical memory) /primary segments， 其 中 X 可 设置 为 1.0 和 1.5 之 间 的 数字 ， 当 X=1.5 时 容易 引发 swap， 但 是 会 减少 因 内 存 不 足 而 失败 
的 查询 数 。 


(32) log min duration statement 

当 查 询 语句 执行 时 间 超 过 此 值 时 ， 将 会 记录 日 志 ， 相 关 参 数 参 考 log_ 开 头 的 所 有 参数 。 

(33) maintenance work mem 

设置 用 于 维护 的 操作 可 用 的 内 存 数 ， 比 如 vacuum、create index 等 操作 将 受到 这 个 参数 的 影响 。 
(34) max appendonly tables 

最 大 可 并 发 处 理 的 appendonly 表 的 数目 。 

(35) max connections 

最 大 连接 数 ，Segment 建 议 设置 成 Master 的 5~10 倍 。 

(36) max statement mem 

设置 单个 查询 语句 的 最 大 内 存 限制 ， 相 关 参 数 是 max_ work mem, 

(37) random page cost 

设置 随机 扫描 的 执行 计划 评估 成 本 ， 此 值 越 大 越 倾向 于 选择 顺序 扫描 ， 越 小 越 倾 向 于 选择 索引 扫描 。 
(38) search_path 

设置 未 指定 schema 时 ， 按 照 这 个 顺序 选择 对 象 的 schema。 

(39) statement timeout 

设置 语句 终止 执行 的 超时 时 间 ，0 表 示 永 不 终止 。 


更 多 参数 请 详细 参考 PostgreSQL 及 Greenplum 文 档 。 


8.5 数据库 集群 基 / 付 测试 


在 集群 搭建 完成 正式 应 用 上 线 之 前 ， 对 集群 整体 性 能 做 一 个 基准 测试 是 很 有 必要 的 ， 比 如 验证 数据 库 参 数 设置 是 否 恰当 、 集 群 稳 定性 如 何等 。 如 果 大 家 做 过 PostgreSQL 数 据 库 的 基准 测试 ， 相 信 对 
pgbench 是 比较 熟悉 的 。 这 个 工具 能 非常 方便 地 对 PostgreSQL 数据库 做 一 个 整体 的 性 能 测试 ， 但 是 pgbench 是 OLTP-like (TCP-B-like stress test) 类 型 的 测试 工具 ， 对 Greenplum 集 群 这 种 侧重 于 DSS 或 
数据 库 类 型 的 应 用 场景 是 不 恰当 的 。 在 这 里 简单 介绍 一 下 TPC-H (商业 智能 计算 测试 ) 这 个 工具 ， 它 主要 用 于 ad-hoc、 决 策 支 持 等 系统 的 基准 测试 。 


虽然 TPC Council 提 供 的 TPC-H 这 个 工具 不 支持 Greenplum， 但 是 我 们 发 现 其 支持 TDAT (Teradata) ， 所 以 我 们 对 它 适当 修改 即 可 用 于 测试 我 们 的 Greenplum 和 集群。 
(1) TPC-H 下 载 及 安装 


从 http://www.tpc.org/tpch/default.asp 下 载 tpch-queries.tgz 包 ， 解 压 出 来 之 后 准备 Makefile 文 件 (可 以 将 文件 夹 中 的 makefile.suite 作 为 模板 ) ，Makefile 文 件 的 第 109 行 左右 有 项 要 适当 的 修 
改 ， 如 CC=gcc、DATABASE=TDAT、MACHINE=LINUX、WORKLOAD=TPCH， 修 改 完成 之 后 ， 运 行 make 命 令 进 行 编译 即 可 。 


(2) 测试 数据 生成 


我 们 需要 自动 创建 测 斌 数据。 编译 之 后 会 生成 dbgen 执 行文 件 ， 用 TPC-H 即 可 方便 地 生成 自 定义 大 小 的 测试 数据 。 和 pgbench 工 具 一 样 ，TPC-H 可 通过 参数 控制 测试 数据 的 大 小 。 在 这 里 我 们 需要 生成 


10GB 数 据 用 于 测试 ， 采 用 $./dbgen-s 10 命 令 即 可 ， 例 如 下 面 的 代码 ， 生 成 的 8 个 文件 分 别 对 应 我 们 测试 的 8 个 实体 表 。 
[dcplati Form@del12 dbgen]$ ls -lrth *.tbl 
-rw-rw-r-- dcplatform dcplatform 14M Feb 9 08:33 supplier.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 389 Feb 9 08:33 region.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 1.2G Feb 9 08:33 partsupp.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 233M Feb 9 08:33 part.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 1.7G Feb 9 08:33 orders.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 2.2K Feb 9 08:33 nation.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 7.3G Feb 9 08:33 lineitem.tbl 
-rw-rw-r-- 1 dcplatform dcplatform 234M Feb 9 08:33 customer.tbl 


注意 ， 这 里 自动 生成 的 文件 每 行 会 多 余 一 个 | 分 隔 符 ， 我 们 需要 通过 如 下 脚本 简单 处 理 一 下 ， 以 生成 相应 的 .csv 文 件 : 


for i in "ls *.tbl'; do sed 's/|$//' $i > S(i/tbl/csv); echo $i; done; 


(3) 测试 表 创 建 


我 们 先 创建 表 用 于 测试 数据 库 : 


createdb tpch 


8.6 


2.1 


9.1.1 


在 tpch 库 上 ， 我 们 创建 表 实 体 ， 如 果 在 TPC-H specification 文 档 中 有 表 实 体 的 表 结构 ， 我 们 可 以 按照 如 下 方式 一 一 进行 创建 : 


CREATE TABLE PART ( 
P PARTKEY BIGINT, 
P NAME VARCHAR (55), 
P MFGR CHAR(25), 
P BRAND CHAR (10), 
P TYPE VARCHAR (25), 
P SIZE NTEGER, 
P CONTAINER CHAR (10), 
P RETAILPRICE DECIMAL, 
P COMMENT VARCHAR (23) 
) WITH (APPENDonly-TRUE, COMPRESSlevel-5) 
distributed BY(P PARTKEY); 


(4) 测试 数据 导入 


前 面 我 们 已 经 准备 好 了 8 个 .csv 测 试 文件 ， 这 里 直接 用 copy 命 令 分 别 将 csv 数 据 文件 导入 相应 的 表 中 : 


TH DELIMIT 


ER '|'" 


psql tpch -c "COPY part FROM ' /home/dcplatform/hy/dbgen/part.csv' W 


(5) 测试 脚本 准备 


TPC-H 提 供 了 22 个 测试 SQL， 位 于 queries 目 录 下 ， 这 22 个 查询 SQL 中 ， 有 些 SQL 包 含 correlated subquery (相关 子 查询 ) 


性 ， 发 挥 最 大 的 性 能 优势 。 


修改 SQL 之 后 ， 生 成 基准 测试 的 工作 脚本 ， 如 下 : 


for r in "seq 1 10` 

do 

rn-S((^cat /dev/urandom|od -N3 -An -i` % 10000)) 

DSS QUERY-queries ./qgen 3 5 -r $rn >> benchmark.sql 
Done 


上 面 脚本 会 选取 3.sql 和 5.sql， 重 复 10 次 执行 ， 每 次 选取 随机 数 进 行 SQL 拼 装 ， 生 成 的 脚本 需要 简单 处 理 一 下 再 运行 。 


(6) 运行 基准 测试 脚本 


数据 库 类 型 应 用 的 典型 场景 是 运行 特定 并 发 度 的 OLAP 型 SQL， 所 以 在 这 里 简单 将 上 面 生 成 的 脚本 复制 5 份 ， 然 后 并 行 执行 ， 


fori in ‘seq 1 5^ 


/usr/bin/time -f "runtime-$e" psql tpch < benchmark$i.sql |grep "runtime-" & 
done; 
for p in ^jobs -p` 
do 
wait $p; 
done; 


小 结 


， 其 语法 是 Greenplum 不 支持 的 ， 我 们 需要 适当 修改 以 便 符合 Greenplum 特 


运行 脚本 benchmark.sh ， 代 码 如 下 : 


本 章 简单 介绍 了 Greenplum 线 上 环境 部 署 应 该 关注 的 几 个 主要 方面 ， 其 中 服务 器 硬件 选 型 和 服务 器 系统 参数 调整 尤为 重要 ， 读 者 一 定 要 参考 系统 管理 或 Greenplum 官 方 技术 支持 的 建议 。 在 正式 上 线 应 


第 9 草 "数据库 管 理 


用 前 ， 服 务 器 整体 性 能 及 数据 集群 的 基准 测试 也 是 必 不 可 少 的 步骤 。 数 据 库 参 数 调整 也 在 一 定 程度 上 影响 集群 性 能 ， 所 以 作为 数据 库 管 理 员 ， 务 必 根 据 应 用 情况 参考 Greenplum 官 方 文档 和 PostgreSQL 文 


档 进行 参数 调整 。 


本 章 将 介绍 数据 库 管 理 方面 的 内 容 ， 包 括 用 户 、 权 限 控制 、 资 源 队 列 等 ， 还 将 介绍 Greenplum 自 带 的 一 些 工 具 包 ， 方 便 数 据 库 管理 员 维护 Greenplum。 


用 户 及 权限 管理 


对 于 一 个 完整 的 数据 库 系统 来 说 ， 用 户 和 权限 管理 都 是 必 不 可 少 的 ， 下 面 将 介绍 Greenplum 的 权限 管理 系统 。Greenplum 的 权限 管理 基本 上 与 PostgreSQL 一 样 ， 大 家 可 以 参考 PostgreSQL 的 官方 文档 


(8.2.3) 一 一 第 18 章 数据 库 角 色 和 权限 。 


Greenplum 数 据 库 逻辑 结构 


在 介绍 权限 之 前 ， 我 们 先 了 解 下 Greenplum 数 据 库 的 逻辑 结构 组 成 ， 如 图 9-1 所 示 。 
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效 据 库 


(Database ) 


文件 空间 
(FileSpace ) 
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模式 


(Schema) 


(Language) | 


K 视图 索引 序列 | 函数 


(Table ) (View) (Index) (Sequence) (Function ) 


A A A 
图 9-1 ”Greenplum 数 据 库 逻辑 结构 组 成 

在 Greenplum/PostgresQL 中 ， 角 色 (Role) 、 模 式 (Schema) 、 数 据 库 (DataBase) 是 3 个 不 同 的 概念 ， 不 像 在 MySQL 中 ，DataBase 等 同 于 Schema， 在 Oracle 中 Role 等 同 于 Schema。 
在 Greenplum 中 : 
1) 一 个 Database 下 可 以 有 多 个 Schema， 一 个 Schema 只 属于 一 个 Database。Sschema 在 Greenplum 中 也 叫做 Namespace， 不 同 Database 之 间 的 Schema 没有 关系 ， 可 以 重 名 。 
2) Language 在 使 用 前 必须 创建 ， 一 个 语言 只 属于 一 个 Database。 
3) Table、View、9Sedquence、Function 必 须 属于 一 个 Schema。 
4) 一 个 FileSpace 可 以 有 多 个 TableSpace, 一 个 TableSpace 只 属于 一 个 FileSpace，FileSpace 与 Role 没 有 关系 。 
5) TableSpace 与 Table 是 一 对 多 的 关系 ， 一 个 Schema 下 的 表 可 以 分 布 在 多 个 TableSpace 下 。 
6) 在 图 9-1 中 ， 除 了 FileSpace 之 外 ， 其 他 的 权限 管理 都 是 通过 Role 来 实现 ， 在 这 些 层次 结构 中 ， 用 户 必须 对 上 一 层 有 访问 权限 ， 才 能 够 访问 该 层 的 内 容 。 


7) Group 与 Role 是 一 样 的 概念 ， 在 Greenplum 中 ， 使 用 Role 就 可 以 了 ， 虽 然 Group 在 语法 上 还 可 以 用 ， 实 际 上 已 经 被 废弃 了 。 


.2 Grant 语法 


与 普通 数据 库 一 样 ， 赋 权 通 过 Grant 来 实现 ，Greenplum 中 的 权限 控制 相 比 其 他 数据 库 会 更 细 一 点 。 


A 


创建 数据 库 语 法 为 : 
testDB-4 Mh create role 
Command: CREATE ROLE 
Description: define a new database role 
Syntax: 
CREATE ROLE name [[WITH] option [ http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ]] 
where option can be: 
SUPERUSER | NOSUPERUSER 
| CREATEDB | NOCREATEDB 
| CREATEROLE | NOCREATEROLE 
| CREATEEXTTABLE | NOCREATEEXTTABLE 
[ ( attribute-'value'[, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] ) ] 
where attributes and values are: 


type-'readable'|'writable' 
protocol-'gpfdist'|'http'|'gphdfs' 
NHERIT | NOINHERIT 
LOGIN | NOLOGIN 
CONNECTION LIMIT connlimit 

[ ENCRYPTED UNENCRYPTED ] PASSWORD 'password' 

VALID UNTIL 'timestamp' 

N ROLE rolename [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/...] 
ROLE rolename [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] 
ADMIN rolename [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] 

| RESOURCE QUEUE queue name 


从 语法 上 看 ， 参 数 配置 主要 有 以 下 几 种 ， 配 置 可 以 者 加 使 用 。 

1) 超级 用 户 (SUPERUSERINOSUPERUSER) : 最 高 用 户 权 限 ， 不 受 资源 队列 控制 ， 拥 有 所 有 的 权限 ， 可 以 对 数据 库 进 行 任何 操作 ， 一 般 只 有 DBA 可 以 拥有 这 个 权限 。 
2) 创建 数据 库 权 限 (CREATEDB|NOCREATEDB) , 

3) 创建 用 户 权限 (CREATEROLEINOCREATEROLE) : 这 个 用 户 可 以 创建 其 他 用 户 。 

4) 登录 权限 (LOGININOLOGIN) : 可 以 指定 该 用 户 登 录 的 连接 数控 制 。 

5) 创建 外 部 表 权 限 (CREATEEXTTABLE|NOCREATEEXTTABLE) : 属性 配置 中 也 可 以 对 外 部 表 有 更 细 的 权限 控制 ， 如 只 读 、 可 写 外 部 表 权 限 等 。 

6) 用 户 继承 (INHERITINOINHERIT) : 子 用 户 可 以 拥有 父 用 户 的 所 有 权限 。 

7) 资源 队列 控制 (RESOURCE QUEUE) : 这 个 在 9.3 节 有 更 详细 的 描述 。 

8) 密码 控制 (ENCRYPTEDIUNENCRYPTED) : 还 可 以 指定 密码 以 及 失效 时 间 。 


下 面 是 一 个 创建 用 户 的 例子 ，testrole1 这 个 用 户 可 以 有 登录 权限 ， 以 及 创建 数据 库 与 创建 用 户 的 权限 : 


testDB-4 create role testrolel createdb createrole login ; 
NOTICE: resource queue required -- using default resource queue "pg default" 
CREATE ROLE 


Testrole2 这 个 用 户 的 密码 为 test， 有 效 期 只 到 “2013-12-21: 00: 00: 00” ， 连 接 数 限制 为 5， 并 且 继 承 了 testrole1 的 所 有 权限 。 


testDB-4 create role testrole2 password 'test' valid until '2013-12-21 00:00:00' connection limit 5 inherit in role testrolel login ; 
NOTICE: resource queue required -- using default resource queue "pg default" 
CREATE ROLE 


左权 命令 Grant， 在 语法 上 与 其 他 数据 库 类 似 ， 其 基本 语法 结构 是 : 


GRANT 权限 类 型 ON Relation WX, WEL, KÆ, Schema) TO 用 户 或 用 户 组 ; 


Grant 的 语法 示例 如 图 9-2 所 示 (由 于 权限 比较 多 ， 因 此 语法 比较 长 ， 这 里 只 截取 其 中 一 段 ， 读 者 可 以 详细 读 下 语法 ， 通 过 语法 可 以 了 解 整个 数据 库 的 权限 控制 ) 。 


testDB-4 Mh GRANT 

command : GRANT 

Description: define access privileges 
Syntax: 


GRANT 1 i SELECT | INSERT | UPDATE | DELETE | REFERENCES | TRIGGER j 
[....] | ALL [ PRIVILEGES ] 上 
OM [ TABLE ] tablename [, ...] 
TO i username | GROUP groupname | PUBLIC 上 [, ...] [ WITH GRANT OPTION | 


图 9-2 ”Grant 语法 示例 
回收 权限 的 语法 Revoke， 基 本 上 与 Grant 是 一 一 对 应 的 ， 下 面 举 几 个 例子 说 明 下 如 何 使 用 回归 权限 。 


为 testrole1 赋 予 查 询 test_ table1 的 权限 : 


testDB-4 grant select on test tablel to testrolel; 


回收 这 个 权限 : 


testDB-4 revoke select on test tablel from testrolel; 
REVOKE 


所 有 的 权限 信息 都 保存 在 数据 字典 的 acl 字 段 中 ， 我 们 可 以 通过 下 面 的 SQL 得 到 哪些 数据 字典 记录 了 权限 控制 的 信息 。 


testDB-4 select c.nspname as Schame,a.relname as table,b.attname as column 
testDB-i4 from pg class a,pg attribute b,pg namespace c 
testDB-4 where a.oid-b.attrelid 
testDB-i and a.relnamespace-c.oid 
testDB-4 and a.relkind-'r' 
testDB-i and c.nspname-'pg catalog' 
testDB-4 and b.attname like '$acl$'; 
schame table column 
———— i 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 
pg catalog | pg proc proacl 
pg catalog | pg class relac] 
pg catalog pg language lanacl 
pg catalog | pg namespace nspacl 
pg catalog | pg database datacl 
pg catalog | pg tablespace spcacl 
pg catalog | pg ] pltemplate tmplacl 
pg catalog pg foreign | data wrapper fdwac] 
pg catalog | pg foreign server srvacl 
(9 rows) 


9.2 ”登录 权限 控制 


客户 端 认证 是 由 一 个 配置 文件 (通常 名 为 pg_hba.conf) 控制 的 ， 它 存放 在 数据 库 集群 的 数据 目录 中 。HBA 是 “Host-Based Authentication” 的 缩写 ， 即 基于 主机 的 认证 ， 可 以 限制 登录 机 器 的 IP 


在 第 2 章 的 时 候 简单 介绍 了 pg_hba.conf 文 件 控制 用 户 的 登录 权限 ，Greenplum 中 的 登录 权限 与 PostgreSQL 中 是 一 样 的 ， 在 PostgreSQL 的 官方 文档 中 已 经 讲 得 很 清楚 了 ， 建 议 读者 自行 浏览 
PostgreSQL 8.2.3 中 文档 一 一 20.1.pg_hba.conf。 


9.3 ”资源 队列 及 并 上 友 控 制 


在 Greenplum 4.x 之 后 的 版 本 中 ， 加 入 了 资源 队列 的 概念 ， 本 节 将 简单 介绍 一 些 与 队列 控制 相关 的 内 容 。 


资源 负载 管理 是 为 了 限制 系统 中 活动 的 SQL 对 使 用 资源 的 消耗 ， 避 免 由 于 SQL 将 系统 资源 (如 CPU、IMO、 内 存 ) 耗 尽 而 造成 系统 缓慢 或 崩溃 。 资 源 队 列 可 以 限制 活动 SQL 的 个 数 ， 以 及 SQL 各 种 消耗 的 
大 小 。 每 一 个 用 户 会 对 应 到 一 个 资源 队列 中 。 通 过 对 用 户 消耗 资源 的 控制 ，DBA 可 以 尽量 避免 系统 出 现 过 负载 。 


资源 队列 在 Greenplum 中 是 如 何 工作 的 ? 

资源 调度 在 系统 安装 的 时 候 已 经 默认 打开 了 ， 所 有 的 数据 库 用户 都 必须 对 应 一 个 资源 队列 ， 如 果 配 置 具 体 的 资源 队列 ， 默 认 的 资源 队列 是 pg_default。 
在 Greenplum 中 ， 资 源 队 列 可 以 实现 如 下 的 限制 。 

:活动 的 SQL 数 ， 在 这 个 资源 队列 下 最 多 能 够 运行 的 SQL 数 。 


能 够 消耗 的 最 大 内 存 。 


| SQL 优先 级 ， 与 其 他 队列 的 比较 ， 主 要 限制 在 CPU 的 资源 上 。 


:SQL 的 cost 值 。 


在 一 个 资源 队列 中 ， 当 一 个 新 的 SQL 要 执行 的 时 候 ， 如 果 发 现 队列 中 已 经 运行 的 SQL 占用 的 资源 总 和 超过 了 指定 限制 ， 那 么 这 个 SQL 会 处 于 等 待 状态 ， 等 待 队列 中 的 其 他 SQL 执行 完 ， 将 资源 释放 出 来 后 
再 继续 执行 ， 如 图 9-3 所 示 。 


Waiting Statements Active Statements 


ROLES RESOURCE QUEUE 


图 9-3 用户 与 资源 队列 的 限制 
下 面 分 别 从 内 存 、CPU 优 先 级 、cost 等 方面 讲解 
1. 内 存 


如 果 一 个 资源 队列 中 限制 了 最 大 使 用 内 存 是 2000MB， 同 时 设置 了 同时 执行 的 SQL 数 为 10 个 ， 那 么 每 一 个 SQL 最 多 使 用 的 内 存 就 是 200MB。 同 时 ， 每 个 SQL 消耗 的 内 存 ， 不 能 大 于 statement_mem 人 参数 
中 设置 的 内 存 大 小 。 当 一 个 SQL 运行 的 时 候 ， 这 个 内 存 大 小 就 会 被 分 配 出 来 ， 直 到 SQL 执行 结束 后 才 释 放 。 


2.CPU 
CPU 优先 级 管理 ， 每 一 个 资源 队列 中 ， 都 有 一 个 对 应 的 CPU 优先 级 。CPU 的 优先 级 有 三 个 等 级 。 
. adhoc， 低 优先 级 。 

. reporting， 高 优先 级 。 

- executive， 最 高 优先 级 。 


当 系 统 中 有 新 的 SQL 进入 的 时 候 ， 各 个 SQL 消耗 CPU 的 资源 会 根据 其 优先 级 重新 评估 ， 如 图 9-4 所 示 。 


图 9-4 当 新 的 SQL 执行 时 ， 重 新 分 配 CPU 资源 


当 executive 优 先 级 的 SQL 进入 时 ， 系 统 会 将 大 部 分 的 资源 分 配给 它 ， 如 图 9-5 所 示 。 


Query 1 from reporting (High Priority) 


图 9-5 当 最 高 优先 级 SQL 执行 时 的 资源 分 配 


3. 语 法 介绍 
并 不 是 所 有 的 SQL 都 会 被 限制 在 资源 队列 中 ， 在 默认 情况 下 ，SELECT、SELECT INTO, CREATE TABLE AS SELECT 和 DECLARE CURSOR 会 被 限制 在 队列 中 。 如 果 将 参数 resource select onlyis &RE 


off， 那 么 INSERT、UPDATE、DELETE 语 句 也 会 被 限制 在 队列 中 。 
下 面 介 绍 如 何 创 建 资源 队列 ， 以 及 如 何 使 用 资源 队列 ， 语 法 如 下 : 


CREATE RESOURCE QUEUE name WITH (queue attribute-value [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... ]) 


where queue attribute is: 
ACTIVE STATEMENTS-integer 
[ MAX COST-float [COST OVERCOMMIT-(TRUE|FALSE]] ] 
[ MIN COST-float ] 
[ PRIORITY-(MIN|LOW|MEDIUM|HIGH|MAX) ] 
[ MEMORY LIMIT-'memory units' ] 
| MAX COST-float [ COST OVERCOMMIT-(TRUE|FALSE) ] 


ACTIVE STATEMENTS-integer | 
MIN COST-float ] 
PRIORITY-(MIN|LOW|MEDIUM|HIGH|MAX) ] 
MEMORY LIMIT-'memory units' ] 


: 创建 一 个 队列 只 有 限制 最 大 的 活动 SQL 数 : 


testDB-4 CREATE RESOURCE QUEUE adhoc WITH (ACTIVE STATEMENTS-3); 
CREATE QUEUE 


“ 创建 一 个 队列 加 上 内 存 限制 : 


testDB-4 CREATE RESOURCE QUEUE myqueue WITH (ACTIVE STATEMENTS-20, 
MB'); 
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注意 如 果 只 设置 了 MEMORY_LIMIT 和 ACTIVE_STATEMENTS， 那 么 每 个 query 使 用 的 内 存 是 MEMORY_LIMIT/ACTIVE_STATEMENTS， 如 果 设 置 了 MAX_COST， 那 么 query 使 用 的 内 存 就 是 


MEMORY_LIMIT* (query_cost/MAX COST) ，query_cost 为 query 在 执行 计划 中 的 coast 值 


如 果 想 对 一 个 SQL 进 行 特殊 处 理 ， 增 加 其 运行 时 的 内 存 ， 那 么 可 以 设置 statement_mem 参 数 ， 将 它 调 大 ， 例 如 : 


=> SET statement mem-'2GB'; 
=> SELECT * FROM my big table WHERE column-'value' ORDER BY id; 
-» RESET statement mem; 


设置 最 大 的 cost 值 (cost 值 如 何 计算 ， 请 参考 第 5 章 ) 


CREATE RESOURCE QUEUE webuser WITH (MAX COST-10000.0); 


当 cost 值 超出 资源 限制 时 ， 会 报错 : 


ERROR: statement requires more resources than resource queue allows 


在 默认 情况 下 COST_OVERCOM MIT 参 数 为 false， 这 个 时 候 ， 只 要 cost 值 超过 MAX_COST 的 SQL 都 会 报错 。 如 果 COST_OVERCOMMIT 设 置 为 true， 在 当前 资源 队列 中 ， 没 有 其 他 的 SQL 在 运行 的 时 
候 ， 这 个 超过 MAX_COST 的 SQL 也 会 被 执行 。 


有 一 个 与 MAX_COST 对 应 的 MIN_COST， 如 果 一 个 SQL 的 cost 值 小 于 MIN_COST， 那 么 这 个 SQL 不 管 资源 是 什么 情况 ， 都 会 马上 被 执行 。 
. 设置 CPU 优先 级 : 


CPU 优先 级 有 5 个 级 别 : MINILOW|IMEDIUM|IHIGHIMAX， 可 以 根据 不 同 的 需求 选择 : 


=# A] 
EI AL 


ER RESOURCE QUEUE adhoc WITH (PRIORITY-LOW); 
ER RESOURCE QUEUE reporting WITH (PRIORITY-HIGH); 


F3 rj 


Greenplum 中 提供 了 很 多 表 和 视图 用 于 查看 资源 队列 的 情况 。 查 看 配置 情况 : 


testDB-4 select * from pg resqueue attributes; 


rsqname resname ressetting restypid 
adhoc active statements | 3 1 
adhoc max cost =I 2 
adhoc min cost 0 3 
aqhoc cost overcommit 0 4 
adhoc priority medium 5 
adhoc memory limit z. 6 


查看 现 有 的 资源 队列 使 用 情况 : 


testDB=# select * from pg resqueue status; 


rsqname | rsqcountlimit | rsqcountvalue | rsqcostlimit | rsqcostvalue | rsqwaiters | rsqholders 
一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 
adhoc | 3 | 0 | =I | | 0 | 0 
pg default | 20 | 0 | -1 | | 0 | 0 
(2 rows) 


在 gp_toolkit 中 ， 还 有 几 个 视图 可 用 于 查看 资源 队列 的 使 用 情况 : 


testDB-4 Ndv gp toolkit.gp resq* 
List of relations 


Schema Name Type Owner Storage 
gp toolkit gp resq activity view gpadmin none 
gp toolkit | gp resq activity by queue view | gpadmin | none 
gp toolkit | gp resq priority backend view | gpadmin | none 
gp toolkit | gp resq priority statement | view | gpadmin | none 
gp toolkit gp resq role view gpadmin none 
gp toolkit | gp resqueue status view | gpadmin | none 


创建 /修改 用 户 指定 资源 队列 : 


B-4 create role aquery RESOURCE QUEUE adhoc; 
B-4 alter role etl resource queue adhoc; 


局 J 


CEST 


修改 资源 队列 的 语法 如 下 ， 只 有 超级 用 户 才 可 以 修改 资源 组 ，ALTER RESOURCE QUEUE 的 语法 介绍 很 明显 ， 这 里 就 不 多 介绍 。 修 改 资源 队列 语法 如 下 : 


ALTER RESOURCE QUEUE name WITH ( queue attribute-value [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/O0EBPS/Text/... ] ) 
where queue attribute is: 
ACTIVE STATE ENTS-integer 


MEMORY LIMIT-'memory units" 
MAX COST-float 

COST OVERCOMMIT- (TRUE | FALSE} 
MIN COST-float 


PRIORITY- (MIN | LOW |MEDIUM|HIGH | MAX} 


94 Greenplum 锁 机 制 


Greenplum 的 锁 基 本 上 与 PostgresSQL 的 锁 是 一 样 的， 这 里 将 介绍 锁 的 类 型 、 分 布 式 锁 的 一 些 概念 ， 以 及 在 Greenplum 中 有 可 能 造 


能 造成 的 死 锁 。 


Greenplum 是 一 个 分 布 式 的 数据 库 ， 其 对 应 的 锁 机 制 肯 定 比 普通 的 数据 库 还 要 复杂 一 些 ， 因 为 需要 统一 每 一 个 节点 的 锁 ， 这 个 锁 的 控制 是 在 Master 上 执行 的 。 不 幸 的 是 ，Greenplum 的 锁 机 制 还 不 够 


完善 ， 在 某 些 场景 上 可 能 会 出 现 一 些 问题 。 


与 PostgreSQL 一 样 ，Greenplum 中 也 对 应 了 八 种 锁 ， 如 表 9-1 所 示 。 


锁 类 型 


ACCESS SHARE 


ROW SHARE 


ROW EXCLUSIVE 


SHARE UPDATE EXCLUSIVE 


SHARE 


SHARE ROW EXCLUSIVE 


Mt MA 3T. 
JES 7 tu 


EXCLUSIVE 


ACCESS EXCLUSIVE 


这 几 种 锁 的 冲突 如 表 9-2 所 示 。 


表 9-1 Greenplum 中 的 锁 类 型 
说 HH 

SELECT 命令 在 被 引用 的 表 上 请 求 一 个 这 种 锁 。 通 第 ， 任 何 只 该 取 表 而 不 对 它 
进行 修改 的 命令 都 请 求 这 种 锁 模 式 

SELECT FOR UPDATE 和 SELECT FOR SHARE 命令 在 目标 表 上 需要 一 个 这 样 
模式 的 锁 (加 上 在 所 有 被 引用 却 没有 ACCESS SHARE 的 表 上 的 FOR UPDATE/ 
FOR SHARE 锁 ) 

UPDATE, DELETE, INSERT 命令 自动 请 求 这 种 锁 模式 (加 上 所 有 其 他 被 引用 
的 表 上 的 ACCESS SHARE 9i. 通常， 这 种 锁 将 被 任何 修改 表 中 数据 的 查询 请 求 

VACUUM (不 带 FULL 选项 )、ANALYZE 、CREATE INDEX CONCURRENTLY 
请 求 这 样 的 锁 

这 个 模式 避免 表 的 并 发 数据 修改 ，CREATE INDEX (不 带 CONCURRENTLY iX 
项 ) 语句 需要 这 样 的 锁 模 式 


任何 PostgreSQL 命令 都 不 会 自动 请 求 这 种 锁 模 式 


说 明 
这 种 模式 只 人 允许 并 发 ACCESS SHARE 锁 ， 也 就 是 说 ， 只 有 对 表 的 读 动 作 可 以 
和 持 有 这 种 锁 模 式 的 事务 并 发 执行 
与 所 有 模式 冲突 (包括 其 自身 )。 这 种 模式 保证 其 所 有 者 (事务 ) 是 可 以 访问 
该 表 的 唯一 事务 。ALTER TABLE, DROP TABLE, TRUNCATE, REINDEX, 
CLUSTER, VACUUM FULL 命令 需要 这 样 的 锁 。 在 LOCK TABLE 命令 没有 明确 
声明 需要 的 锁 模 式 时 ， 它 是 默认 锁 横 式 


KI-2 ” 几 种 锁 的 冲突 情况 


Current Lock Mode 


Requested SHARE 
ACCESS| ROW ROW SHARE ROW | EXCLUS ACCESS 
Lock Mode UPDATE 
SHARE | EXCLUSIVE EXCLUSIVE IVE EXCLUSIVE 
EXCLUSIVE 


ACCESS 
SHARE 
SHARE MEN | 


SHARE 
UPDATE x x x x 
EXC EE T 


SHARE Lx Th ~ 


SHARE 
EXC ame 


ACCESS 
X X X X X X X X 
EXCLUSIVE 


在 4.7.10 节 也 简单 介绍 了 如 何 通过 pg locks 这 个 视图 查询 数据 库 中 锁 的 信息 ， 在 Greenplum 4.xrR, pg locksEL3.xh 4s ze f SegmentBStiife s. 


X 


X 


下 面 通过 一 个 实际 的 例子 来 描述 锁 的 过 程 。 


1) 在 一 个 会 话 中 ， 将 表 pg_class 锁 住 ， 如 图 9-6 所 示 。 


testDB=# begin: 
BEGIN 


testDB=# lock pg class in ROW SHARE mode; 
LOCK TABLE 


图 9-6 在 一 个 事务 中 将 表 锁 住 


2) 然后 在 另外 一 个 会 话 中 ， 通 过 sess id (通过 pg stat activity 获 取 ) 查询 这 个 会 话 产生 的 锁 ， 如 图 9-7 所 示 。 


testDB=# select Re es relation,transactionid,pid,mode,gp segment id gpid 
testDB-£ from pg locks where mppses ssionid-88774; 
lockrype | relation | transactionid | pid | mode 


Exc lusiveLock 
owshareLock 
RowshareLock 
Exc lusiweLock 
RowshareLock 
Exc lusiveLock 
Exc lusivweLock 
RowshareLock 
Exc lusiver ock 
ROwShareLock 
Exc lusiveLock 
Rowshar eLock 
ExclusiveLock 
owsShar eLock 


transactionid 1086539 
relation 
relation 
transactionid 
relation 
transactionid 
transactiornid 
relation 
transactionid 
relation 
transactionid 
relation 
transact1ionicd 
relation 
(14 rows) 


| 
1259 | 
1259 | 
| 1099518 | 26801 
1259 | 20803 
| 1099513 20803 
| 1099483 30858 
| 
| 
| 
| 
| 
| 


12593 30858 
1099488 30860 

30860 
1099505 3/53 


E -T E 


让 
10050483 5755 
5799 


1259 


1259 


1259 


图 9-7 查询 pg_locks 视 图 


locktype 表 示 锁 住 的 内 容 ， 主 要 是 transactioidn 和 relation。 在 Greenplum 中 ，Master 到 Segment 的 连接 就 是 一 个 transaction， 只 要 一 连接 就 会 有 这 个 锁 信 息 ，relation 字 段 中 的 1259 对 应 pg_class 
的 oid 字 段 。gpid 不 等 于 -1 就 是 代表 每 一 个 egment 的 锁 信 息 。 


通过 lock 命 令 可 以 显 式 地 将 表 锁 住 ， 前 面 已 经 试 过 将 pg_class 锁 住 了 ， 语 法 如 下 : 


Command: LOCK 
Description: lock a table 
Syntax: 
LOCK [ TABLE ] name [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/...] 
where lockmode is one of: 
ACCESS SHARE | ROW SHARE | ROW EXCLUSIVE | SHARE UPDATE EXCLUSIVE 
| SHARE | SHARE ROW EXCLUSIVE EXCLUSIVE | ACCESS EXCLUSIVE 


~ 


IN lockmode MODE ] [ NOWAIT ] 


本 节 将 介绍 Greenplum 的 数据 目录 结构 ， 文 件 在 数据 库 中 的 存储 特点 ， 以 及 我 们 在 维护 Greenplum 中 要 注意 的 一 些 问题 。 


如 图 9-8 所 示 是 Greenplum 主 节点 (Master) 的 数据 目录 结构 。 


drwx----- E 
drwx----- = 
-rw-rw-r-- 


gpadmi 
gpadmir 
gpadmnir 
gpadmni rn 
gpadnmir 
gpadnmitr 
gpadmi 
gpadmi 

gpadmi 

gpadmir 
gpadmir 
gpadmir 
gpadni r 
gpacdmir 
gpadnmi 
gpacdmi r 
gpadmir 


gpadmin 
gpadmin 
gpadmin 
gpadmin 
gpadmin 
gqpadmin 
goadmin 
gpadmin 
gpadmin 
gpnadmin 
gpadmin 
gpadmin 
gpadmin 
qnadmin 
gpadmin 
gpadmin 
gpadmin 


pg. hba. conf 
pg ident. conf 


gpadmimn gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 
gpadmin gpadmin 


Dec vEnmE TOM 


postgresql. conf 
postmaster. opts 
postmaster. pid 
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图 9-8 数据 目录 结构 

其 中 : 

' base 是 数据 目录 ， 每 个 数据 库 在 这 个 目录 下 ， 会 有 一 个 对 应 的 文件 夹 。 

global 是 每 一 个 数据 库 公 用 的 数据 目录 。 

: gpperftmon 监 控 数 据 库 性 能 时 ， 存 放 监 控 数 据 的 地 方 。 

: pg_changetracking 是 Segment 之 间 主 备 同步 用 到 的 一 些 原 数据 信息 保存 的 地 方 。 

: bg_clog 是 记录 数据 库 事务 信息 的 地 方 ， 保 存 了 每 一 个 事务 id 的 状态 ， 这 个 非常 重要 ， 不 能 丢失 ， 一 旦 丢失 ， 整 个 数据 库 就 基本 上 不 可 用 了 。 

. pg log 是 数据 库 的 日 志 信 息 。 

.bg_twobhase 是 二 阶段 提交 的 事务 信息 〈 关 于 二 阶段 提交 的 内 容 可 参阅 第 7 章 中 的 介绍 ) 

pg_xlog 是 数据 库 重 写 日 志保 存 的 地 方 ， 其 中 每 个 文件 固定 大 小 为 64MB， 并 不 断 重 复 使 用 。 

- gp_dbid 记 录 这 个 数据 库 的 dbid 以 及 它 对 应 的 mirrot 节 点 的 dbid。 

pg_hba.conf 是 访问 权限 控制 文件 。 

pg_ident.conf 是 ldent 映 射 文件 。 

: PG_VERSION 是 PostgreSQL 的 版 本 号 。 

- postgresql.conf 是 参数 配置 文件 。 

` postmaster.opts 是 启动 该 数据 库 的 pg_ctl 命 令 。 

` postmaster.pid 是 该 数据 库 的 进程 号 和 数据 目录 信息 。 


其 中 数据 目录 base 下 面 的 文件 夹 结构 为 : 


#1ls 
1 10890 10891 16992 285346 


其 中 ， 一 个 文件 夹 代表 一 个 数据 库 ， 文 件 夹 的 名 字 就 是 数据 库 的 oid， 可 以 通过 pg_database 查 询 其 对 应 关系 : 


testDB=# select oid,datname from pg database order by oid; 
datname 


16992 | testDB 
285346 | gpperfmon 
(6 rows) 


接 下 来 这 一 小 节 的 内 容 将 介绍 Greenplum 的 数据 文件 是 如 何 保存 的 (不 涉及 文件 中 具体 的 文件 存储 格式 ， 主 要 是 表 的 存储 文件 分 布 ) 。 


9.6 ”数据 文件 仓储 分 布 


下 面 分 别 介绍 表 、 索 引 、 序 列 的 文件 存储 分 布 〈 外 部 表 和 视图 没有 实际 的 数据 ， 所 以 都 没有 数据 文件 生成 ) ， 每 一 种 类 型 对 应 数据 库 里 面 哪些 文件 。 
(1) 表 
最 普通 的 堆 表 只 有 一 个 数据 文件 ， 如 果 表 中 有 大 字段 ， 那 么 这 个 表 会 多 两 个 数据 文件 ， 分 别 是 toast 表 和 toast 表 索引 。 


怎样 才 算是 大 字段 呢 ? 下 面 通过 一 个 实验 来 说 明 下 ， 首 先 创建 下 面 这 些 表 : 


create table test varchar2037(id int,values varchar(2037)) distributed by (id) 


create table test varchar2036(id int,values varchar(2036)) distributed by (id) 
create table test text(id int,values text) distributed by (id); 


接着 查询 pg_class 的 结构 : 


testDB-4 select oid,relname,reltoastrelid from pg class where relname like 'test varchar$' or relname = 'test text'; 
oid | relname | reltoastrelid E 
A 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
316625 | test varchar2037 | 316627 
316650 | test varchar2036 | 0 
316696 | test text | 316698 
(4 rows) 


可 以 看 出 临界 点 varchar 的 大 小 就 是 2036， 当 超过 2036 时 ， 数 据 库 就 会 为 该 表 创建 一 个 toast 表 ，text 类 型 本 来 就 是 保存 大 文本 字段 的 ， 所 以 一 定 有 toast 表 。 


如 果 原 来 表 中 最 大 的 一 个 字段 是 varchar (2036) ， 通 过 修改 表 结 构 将 其 改 为 varchar (2037) ， 那 么 原来 没有 toast 表 的 也 会 增加 toast 表 。 


testDB=# create table test varchar2036 to 2037(id int,values varchar(2036)) distributed by (id); 
CREATE TABLE 
testDB=# select oid,relname,reltoastrelid from pg class where relname -'test varchar2036 to 2037'; 
relname | reltoastrelid 


316743 | test varchar2036 to 2037 | 0 
(1 row) i EE 
testDB-4 alter table test varchar2036 to 2037 alter values type varchar (2037); 
ALTER TABLE i EN 
testDB=# select oid,relname,reltoastrelid from pg class where relname -'test varchar2036 to 2037'; 


oid | relname | reltoastrelid 
——— 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
316743 | test varchar2036 to 2037 | 316778 
(1 row) 


默认 toast 表 的 名 字 为 pg toast + 原 表 的 relfilenode， 索 引 为 pg toast + 原 表 的 relfilenode+_ index， 如 下 (316696£ test text 的 oid) : 


testDB-4 select oid,relname from pg class where relname like '$316696$'; 


oid | relname 

————— 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
316698 | pg toast 316696 
316699 | pg toast 316696 index 


(2 rows) 


Qum 起 大 尺寸 字段 存 储 技 术 (TOAST, The Oversized-Atttibute Storage Technique) ， 详 见 PostpreSQ18.23 官 方 文档 一 52.2.TOAST。 
如 果 是 Appendonly 表 ， 那 么 会 多 4 个 文件 一 一 pg_aoseg、pg _aovisimap 表 及 其 索引 对 应 的 数据 文件 ， 这 个 在 第 6 章 中 介绍 了 。 
(2) 索引 


索引 文件 只 有 一 个 ， 可 以 通过 索引 名 在 pg_class 中 查找 。 索 引 在 创建 的 时 候 就 分 配 了 32KB 的 存储 空间 ， 等 到 这 32KB 用 完了 才 开 始 扩大 。 


testDB=# create index test varchar2036 idx on test varchar2036 (id); 
CREATE INDEX 


testDB-$ select oid,relname,relfilenode from pg class where relname = 'test varchar2036'; 
oid | relname | relfilenode E 

€——— 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 

316480 | test varchar2036 | 316480 

(1 row) E 


可 以 在 对 应 的 数据 目录 中 查 到 这 个 文件 : 


#ls -1 316606 
-Iw------- 1 gpadmin gpadmin 32768 Oct 6 21:26 316606 


(3) 序列 


ÆJ] (Sequence) 与 索引 一 样 ， 也 只 有 一 个 数据 文件 ， 在 pg_class 中 对 应 一 条 记录 ，relfilenode 字 段 就 是 文件 名 ， 这 些 不 再 说 明 。 


如 果 一 个 表 中 有 字段 是 serial 类 型 的 ， 即 一 个 递增 序列 ， 那 么 这 个 表 会 自动 创建 一 个 序列 ， 也 就 会 多 一 个 数据 文件 。 


97 表 空 间 管理 


在 Greenplum 4.0 之 后 的 版 本 中 ，Greenplum 加 入 了 文件 空间 (Filespace) 和 表 空 间 (Tablespace) 的 概念 ， 在 以 前 的 版 本 中 ， 所 有 数据 都 是 放 在 base 目 录 下 的 ， 每 一 个 数据 库 一 个 文件 夹 (文件 夹 
的 名 字 为 数据 库 的 oid) 。 


在 系统 初始 化 的 时 候 ， 只 有 两 个 表 空 间 pg_default 和 pg_global， 这 两 个 表 空 间 都 在 pg_system 这 个 文件 系统 下 : 


testDB-4 select a.spcname,b.fsname from pg tablespace a ,pg filespace b where  spcfsoid-b.oid; 


spcname | fsname 
一 一 一 一 一 一 一 一 一 一 一 一 于 三 三 三 三 三 三 三 三 三 三 二 
pg default | pg system 
pg global | pg system 
(2 rows) 


pg_global 表 空间 保存 的 是 各 个 数据 库 之 间 的 通用 信息 ， 在 data_directory/global 目 录 下 ，pg_default 表 空间 保存 的 是 每 个 数据 库 特 有 的 数据 ， 包 括 数 据 字典 及 用 户 数 据 。 其 中 ， 每 一 个 数据 库 都 会 有 
一 个 对 应 的 数据 目录 ， 如 果 数 据 库 中 的 表 比 较 多 ， 或 者 表 分 区 比较 多 (每 一 个 分 区 都 相当 于 一 张 表 ) ， 那 么 在 一 个 目录 下 就 会 有 非常 多 的 文件 ， 文 件数 太 多 会 给 文件 系统 带 来 非常 大 的 压力 。 因 此 ， 当 文件 
数 增长 到 一 定 程度 的 时 候 ， 就 必须 使 用 表 空 间 ， 将 数据 存放 到 多 个 目录 下 。 


在 Greenplum 中 ， 表 空间 必须 创建 在 文件 空间 上 ， 默 认 只 有 pg_system 一 个 文件 空间 ， 在 这 个 文件 空间 上 不 能 再 创建 其 他 的 表 空间 了 。 下 面 介绍 如 何 创建 多 一 个 文件 空间 。 


首先 ， 为 每 一 个 表 空 间 创建 系统 目录 ， 在 MASTER 和 每 一 个 SEGMENT 上 都 要 创建 : 


MASTER: /home/gpadmin/gpdata/master fspc 
Primary Segment: /home/gpadmin/gpdata/primary fspc 
Mirror Segment: /home/gpadmin/gpdata/mirror fspc 


然后 运行 gpfilespace 脚 本 ， 根 据 提示 输入 文件 系统 的 名 字 和 每 个 segment 的 目录 。 


$ gpfilespace 

» fs test 

Checking your configuration: 

Your system has 1 hosts with 0 primary and 0 mirror segments per hos! 

Your system has 3 hosts with 2 primary and 2 mirror segments per hos! 

Configuring hosts: [mdw] 

Configuring hosts: [sdw3, sdwl, sdw2] 

Please specify 2 locations for the primary segments, one per line: 

primary location 1» /home/gpadmin/gpdata/primary fspc 

primary location 2» /home/gpadmin/gpdata/primary fspc 

Please specify 2 locations for the mirror segments, one per line: 

mirror location 1» /home/gpadmin/gpdata/mirror fspc 

mirror location 2» /home/gpadmin/gpdata/mirror fspc 

Enter a file system location for the master 

master location» /home/gpadmin/gpdata/master fspc 

Creating configuration filehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... [created] 

To add this filespace to the database please run the command: 
gpfilespace --config /home/gpadmin/gpdata/gpfilespace config 20120603 210559 


CT CT 
. . 


之 后 ， 会 生成 一 个 gp filespace_config 文 件 ， 这 个 文件 中 保存 了 每 个 Segment 对 应 的 数据 目录 (也 可 以 开始 手动 编辑 这 个 文件 ) : 


$ cat /home/gpadmin/gpdata/gpfilespace config 20120603 210559 
filespace:fs test 
mdw:1:/home/gpadmin/gpdata/master fspc/gpseg-1 
Ssdw3:14: /home/gpadmin/gpdata/master fspc/gpseg-1 
Sdw3:6: /home/gpadmin/gpdata/primary fspc/gpseg4 


运行 gpfilespace 创 建文 件 系统 : 


$ gpfilespace --config /home/gpadmin/gpdata/gpfilespace config 20120603 210559 


创建 好 文件 系统 之 后 ， 我 们 就 可 以 在 上 面 创 建 表 空 间 了 : 


testDB-4 create tablespace tbs testl filespace fs test; 
CREATE TABLESPACE 


在 表 空 间 创建 成 功 之 后 ， 在 建 表 的 时 候 就 可 以 使 用 参数 ， 指 定 表 建 在 哪个 表 空 间 下 面 : 


testDB=# create table test 01 (id int) 
testDB-$ tablespace tbs testl distributed by (id); 
CREATE TABLE 


在 filespace 的 目录 下 ， 就 可 以 看 到 刚刚 创建 的 表 的 数据 文件 了 : 


$ tree 
|-- gpsegO --Segment 名 字 
|  ^-- 295089 -- 表 空间 的 oiq 
| `=- 16992 -- 数 据 库 的 oid 
| |== 295101 -- 数 据 文件 名 ， 对 应 pg class 的 relfilenode 
| `=— PG VERSION i 
-— gpsegl 
-- 295089 
-- 16992 
[55.295101 
`=- PG VERSION 


默认 都 是 在 default_ tablespace (参数 ) 下 面 建 表 ， 这 个 参数 默认 是 pg_default 表 空间 ， 我 们 可 以 在 配置 文件 postgresql.conf 中 修改 这 个 参数 ， 或 者 在 当前 窗口 下 修改 这 个 参数 。 


set default tablespace-'tbs testl'; 


这 样 ， 建 的 表 就 在 这 个 表 空 间 下 了 。 我 们 还 可 以 为 每 一 个 用 户 设置 不 同 的 表 空间 ， 同 时 必须 给 表 空 间 赋 权 : 


testDB-4 alter role etl set default tablespace-'tbs test2'; 
ALTER ROLE 

testDB-4 grant ALL on tablespace tbs test2 to etl; 

GRANT 


更 换 表 空间 ， 将 表 hello1 从 表 空 间 tbs test2 更 换 到 tbs_test3 : 


testDB-4 alter table hellol set tablespace tbs test3; 
ALTER TABLE 


Om 更 换 表 空间 在 Greenplum 中 其 实 是 将 数据 复制 了 一 份 ， 而 不 是 移动 文件 ， 所 以 对 比较 大 的 文件 ， 性 能 比较 差 ， 会 造成 大 量 的 IO。 


9.8 小 结 


本 章 介 绍 了 数据 库 管理 的 相关 内 容 ， 以 及 一 些 基 本 的 数据 库 管理 工具 。 
先 介绍 了 数据 库 用 户 权限 、 登 录 权 限 管 理 ; 之 后 介绍 了 数据 库 的 锁 机 制 及 Greenplum 4.x 版 本 之 后 加 入 的 资源 队列 控制 新 特性 ; 最 后 介绍 了 Greenplum 的 数据 目录 结构 以 及 表 空 间 的 使 用 和 管理 。 


本 章 内 容 中 的 用 户 及 权限 管理 部 分 都 是 与 PostgreSQL 中 一 样 的 ， 读 者 在 阅读 本 章 的 同时 ， 也 多 看 看 PostgreSQL 的 文档 ， 可 以 更 好 地 掌握 本 章 内 容 。 


第 10 章 ”数据 库 监控 及 调 优 


要 想 将 Greenplum 应 用 在 生产 环境 上 ， 必 要 的 数据 监控 是 不 可 少 的 ， 因 为 通过 监控 及 报警 系统 可 以 使 DBA 及 早 发 现 问题 并 及 时 处 理 。 本 章 将 简单 介绍 Greenplum 数 据 的 监控 及 维护 ， 包 括 Linux 下 的 几 
个 通用 的 监控 工具 。 


10.1 Linux 监控 工具 介绍 


对 于 操作 系统 来 说 ， 要 时 刻 监 控 机 器 的 负载 情况 ， 避 免 因 机 器 太 忙 导致 数据 库 发 生 错误 。 对 于 Linux 操 作 系统 来 说 ， 其 提供 了 很 多 的 工具 来 监控 服务 器 的 性 能 状况 。 所 有 机 器 ， 无 非 就 是 通过 磁盘 IO、 网 
络 、CPU 及 内 存 等 来 分 析 自 身 的 性 能 状况 ， 下 面 简 单 介 绍 一 下 Linux 下 对 应 的 监控 工具 。 


10.1.1 ”监控 磁盘 


监控 磁盘 的 工具 主要 有 iostat， 一 般 运 行 的 命令 为 iostat-x 1， 如 图 10-1 所 示 。 重 点 观察 最 后 一 个 参数 %util， 它 表示 磁盘 使 用 时 间 的 占 比 ， 当 这 个 数据 是 100% 时 ， 就 说 明 磁 盘 已 经 很 忙碌 了 。 然 后 再 看 
下 rsec/s、wsec/s 等 参数 ， 观 察 磁 盘 的 吞吐 。 


对 于 Solaris 来 说 ， 还 可 以 使 用 zpool iostat 查 看 磁盘 的 繁忙 情况 (如 图 10-2 所 示 ) . 


ZiOostat -x 1 


avg-cpu: user Mnice Xsystem *Xiowait  9Xsteal «idle 
1.49 0.00 1.36 D. 31 0.00 . 96.84 


Device: 
sda 
sdal 
sdaz 
sda3 
sda4d 
sdas5 
sda 
sdar 
sda& 
sdb 
sSübl 
sdb2 
sdb3 
sdb4 
süb5 
sdb 
sde 
sdci 


wr qm, s rf Ti rsec/s X wsec/s avgrg-sz avgqu-sz await  svctm 
A 66. 95 3. 34 33. 40 | 
0. 00 


0.17 . 08 
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图 10-1 使 用 iostat 查 询 磁 盘 运 行情 况 


&zpool iostat storagepoo! 1 | 
capacity operations bandwidth 
used awal | read write read write 


230K 99.8K 
- ^ 


* 


图 10-2 ”在 Solaris 下 可 以 使 用 zpool iostat 查 询 ZFS 文 件 系统 的 IO 吞吐 
加 注意 在 Solatis 下， 还 有 一 个 很 强大 的 动态 跟踪 的 工具 一 一 Dtrace， 有 兴趣 的 读者 可 以 去 了 解 下 这 个 工具 ， 这 个 工具 可 以 分 析出 当前 文件 系统 中 哪 一 个 文件 正在 被 访问 ,访问 的 次 数 ， 已 经 被 哪 一 个 
进程 访问 等 ， 非 常 强大 。 除 了 LI/O 以 外 ， 几 乎 所 有 的 操作 系统 相关 的 数据 都 可 以 通过 Dttace 跟 踪 。Dttace 是 一 个 非常 强大 的 调试 分 析 工 具 ， 可 以 快速 找到 系统 的 性 能 瓶颈 。 
10.1.2 ”监控 网 络 
监控 网 络 一 般 可 以 通过 ifstat 命 令 来 实现 ， 这 个 命令 可 以 列 出 每 一 个 网 卡 的 吞吐 情况 ， 如 图 10-3 所 示 。 


也 可 以 通过 sar 命 令 监 控 网 络 流量 (sar-n DEV 1100) ， 如 图 10-4 所 示 。 


图 10-3 ”使 用 ifstat 监 控 网 络 


#sar -n DEY 1 100 

06:25:25 PM IFACE rxpck/s rxbyt/5 txbyt/s rxcmp,s txcmp/s rxmcst/s 
06:25:26 PM lo 2; 02 R76.77 R76. 77 0. 00 0.00 o. 00 
06:25:26 PM et hü 10.10 1880. 81 1133.33 0. 00 0.00 0. OD 
06:25:76 PM ethi 0. 00 | 0. 00 0.00 0. 00 0.00 0. OU 


图 10-4 使 用 Sat 查询 网 络 流量 


Qum 这 两 个 工具 不 是 系统 自 带 的 ， 需 要 重新 安装 。 


Xsoft steal Xidle intr /s 
0.00 0. 00 99. 15 1018.00 
oO. 00 0.00 100.00 1001.00 
Oo. 00 0.00 100,00 0. 00 
U. 00 0,00 100. 00 0.00 
0. 00 D. 00 99. 00 0. 00 
0.00 D. 00 96.00 ;.00 
0.00 0,00 100.00 0.00 
0.00 0.00 100.00 3.00 
0.00 0.00 100.00 D. O00 


Xuser xnice Asys Xiowait 
D. 00 D. 00 0.00 0.75 
UNE o. 00 0.00 0.00 
0. 00 0. 00 0.00 0. 00 
D. 00 D. 00 0. O00 0. 00 

0. 00 0. 00 0.00 1.00 

D. 00 0. 00 0.00 4,00 

0. 00 0. 00 0. 00 0, 00 

0. 00 0.00 0.00 0.00 

D. 00 D. OD 0.00 0. 00 
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图 10-5 4% Jf] mpstat & 6] CPU 7H 46 


Greenplum 在 执行 表 广 播 、Hash join 等 数据 库 操作 时 ， 会 占用 大 量 的 内 存 ， 所 以 内 存 的 监控 显得 格外 重要 。 在 Linux 下 ， 可 以 使 用 free 和 vmstat 来 查看 内 存 的 使 用 。 
(1) free 


使 用 free 查 看 内 存 使 用 情况 如 图 10-6 所 示 。 


"free -m 

total 'E shar ed buffers 
Mem: 3941 3903 o 58 
-/- buffers/cache: i: ] 
Swap : 204 / 


图 10-6 ”通过 free 查 看 内 存 使 用 情况 
主要 关注 buffers/cache 的 free 是 否 已 经 快 没有 了 ， 如 果 是 ， 那 就 说 明 内 存 使 用 已 经 很 吃紧 了 。 还 有 就 是 看 swap 是 否 已 经 开始 使 用 了 ， 如 果 swap 开 始 使 用 ， 说 明 操 作 系 统 的 内 存 已 经 不 足 。 
(2) vmstat 


使 用 vmstat 查 看 内 存 消耗 情况 如 图 10-7 所 示 。 


memor y-- ---Swap-- 1o0---- --system-- 一 pu----- - 
free Duff ^ cache si 50 | bo in cs us sy id wa st 
35497 01112 15014506 | | 23 2 £ 97 0 O 
38492 61120 1501448 0 32 1019 4011 100 0 0 
38492 61120 1501456 O0 1009 4033 100 0 0 
38492? 61120 1501456 | 0 | 0 1009 4906 100 O 0 
37856 61132 1501456 | D 156 1054 5064 98 1 0 
38244 ^ Á 61140 1501448 | 84 1011 5000 100 0 0 
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图 10-7 通过 vmstat 查 看 内 存 消耗 情况 
同样 的 ， 使 用 vmstat 也 可 以 监控 内 存 的 使 用 情况 ， 其 中 几 个 参数 如 下 。 
. swpd: 虚拟 内 存 使 用 情况 ， 单 位 : KB. 
free: 空闲 的 内 存 ， 单 位 KB。 
buff: 用 作 缓 存 的 内 存 数 ， 单 位 : KB。 
在 内 存 使 用 过 程 中 ， 要 时 刻 监 控 空 闲 内 存 的 大 小 ， 如 果 发 现 内 存 占 用 过 高 ， 尤 其 是 swap 开 始 使 用 时 (swap 开 始 使 用 ， 会 导致 Greenplum 性 能 大 减 ) ， 要 及 时 发 现 并 处 理 。 


除 此 之 外 ， 要 了 解 系统 的 参数 还 可 以 通过 top (solaris 下 自 带 prstat) 、sar、dstat 等 工具 。 通 过 dstat 查 看 系统 各 项 信息 的 情况 如 图 10-8 所 示 。 


----total-cpu-usag 


-dsk/total- -net/total- ---paging-- ---system-- 
idl wai hi i 


read writ| recv send| in out | int CSW 
332k  395k| 0 0 | 223B 2508/1040 4564 
0 0 |21508 1583B| 0 [1010 4571 
Ü O |1687B  996B| 0 O 11006 4136 
0 408k|1278B 705E | | 0 [1055 4020 
Ü 344k | 54085 HE G6557B | O 11030 4011 
Ü 0 [2381B 10608 | 0 |1009 3890 
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图 10-8 通过 dstat 查 看 系统 各 项 信息 


10.2 ”安装 Performance Monitor 


Greenplum 中 自 带 了 一 个 工具 一 一 Performance Monitor (在 第 3 章 的 时 候 已 使 用 ， 在 Greenplum 中 简称 为 gpperfmon) ， 使 用 这 个 工具 可 以 收集 当前 数据 库 中 SQL 的 信息 和 系统 性 能 的 指标 ， 以 图 
形 的 方式 展现 出 来 ， 还 会 收集 Master 和 所 有 segment 的 信息 。 其 架构 图 如 图 10-9 所 示 。 


Monitor Console 
Web Application] 


segment Host 4 


Monitor | segment Host 5 


Data base | 


Master Host | 


图 10-9 Performance Monitot 架 构图 
接 下 来 先 介绍 如 何 安装 gpperfmon。 安 装 分 两 个 步骤 如 下 。 
. 创建 监控 数据 库 ， 数 据 库 名 为 gppperftmon， 并 且 打 开 gp_enable_gpperfmon 参 数 。 
: 创建 gpmon 用 户 。 
. 安装 并 配置 监控 控制 台 (Greenplum Performance Monitor Console) 。 


先 使 用 gpperfmon _install 命 令 打 开 gp_enable_gpperfmon 参 数 (使 用 Performance Monitor 的 时 候 需 要 修改 Master 和 Segment 的 postgresql.conf， 将 参数 gp_enable_gpperfmon 值 设 为 on， 这 个 
参数 需要 重启 数据 库 才 生效 ) 。 


$ gpperfmon install --enable --password gpperfmon --port 2345 

INFO]:-PGPORT-2345 psql -f /opt/greenplum/greenplum-db/./lib/gpperfmon/gpperfmon3.sql templatel »& /dev/null 
INFO]:-PGPORT-2345 psql -f /opt/greenplum/greenplum-db/./lib/gpperfmon/gpperfmon4.sql gpperfmon >& /dev/null 
INFO]:-PGPORT-2345 psql -f /opt/greenplum/greenplum-db/./lib/gpperfmon/gpperfmon4l.sql gpperfmon »& /dev/null 


r— c0 c3 


[INFO] : -PGPORT-2345 psql -f / opt/greenplun/greenpl um-db/./lib/gpperfmon/gpperfmonC.sql templatel >& /dev/null 
[INFO]:-PGPORT-2345 psql templatel -c "DROP ROLE IF EXISTS gpmon" >& /dev/null 

[INFO]:-PGPORT-2345 psql templatel -c "CREATE ROLE gpmon WITH SUPERUSER CREATEDB LOGIN ENCRYPTED PASSWORD 'gpperfmon'" >& /dev/null 
[INFO]:-echo "local gpperfmon gpmon md5" >> /home/gpadmin/gpdata/gpmaster/gpseg-1/pg hba.conf 

[INFO]:-echo "host all gpmon 127.0.0.1/28 md5" >> /home/gpadmin/gpdata/gpmaster/gpseg-1l/pg hba.conf 
[INFO]:-touch /home/gpadmin/.pgpass »& /dev/null 

[INFO]:-mv -f /home/gpadmin/.pgpass /home/gpadmin/.pgpass.1336914387 >& /dev/null 

[INFO] :-echo "*:2345:gpperfmon:gpmon:gpperfmon" »» /home/gpadmin/.pgpass 

[INFO]:-cat /home/gpadmin/.pgpass.1336914387 »» /home/gpadmin/.pgpass 

[INFO] :-chmod 0600 /home/qpadmin/ . pgpass >& /dev/null 

[INFO]:-PGPORT-2345 gpconf tig -c gp enable gpperfmon -v on >& /dev/null 

[INFO]:-PGPORT-2345 gpconf tig -c gpperfmon port -v 8888 >& /dev/null 

[INFO]:-PGPORT-2345 gpconfig -c gp external enable exec -v on --masteronly >& 

/dev/null 

[INFO]:-gpperfmon will be enabled after a full restart of GPDB 


在 gpperfmon_install 运 行 过 程 中 ， 执 行 了 很 多 SQL 文件 (如 gpperfmon3.sql) , 


启 数据 库 (gpstop-afr) 。 


接 下 来 安装 监控 控制 台 (Greenplum Performance Monitor Console) 。 


安装 包 是 greenplum-perfmon-web-4.1.1.3-build-4-RHEL5-x86 64.zip。 


下 面 是 具体 的 安装 过 程 。 


(1) 解压 安装 包 


$ unzip greenplum-perf 
Archive: 


greenplum-perfi 


inflating: greenplum-perfmon-web-4.1.1.3-build-4-J 


(2) 根据 提示 安装 


mon-web-4.1.1 
mon-web-4.1. 


1.3-build-4-RHEL 


RHE 


.3-build-4-RHEL5-x86 64.zip 
5-x86 64.zip 
ELS- x86 64.bin 


这 些 文件 都 在 $4GPHOME/lib/gpperfmon/ 目 录 下 ， 主 要 是 创建 表 和 视图 等 。 在 完成 创建 后 ， 要 使 配置 生效 ,必须 重 


$ ./greenplum-per: 


安装 后 的 目录 如 图 10-10 所 示 。 


tmon-web-4.1.1.3-build-4-RHI 


EL5-x86 64.bin 


接 下 来 配置 跟 启动 控制 台 ， 首 先 在 配置 文件 ~/.bash_profile 中 增加 以 下 命令 ， 使 gpperfmon 的 环境 变量 生效 。 


source /home/gpadmin/opt/gpperfi 


drwxrwxr -X 
drwxrwxr -X 
drwxrwxr -X 
drwxrwxr -X 
-rw-rw-r-- 
drwxrwxr -x 
drwxrwxr-x 
drwxrwxr -x 


un LJ hJ F5 u hnJ h3 RJ 


mon/gpperf! 


mon path.sh 


gpadmi n 
gpadmin 
gpadmi n 
gpadmin 


gpadmin 
gpadmi n 
gpadmi n 
gpadmin 


接着 运行 bin/gpperfmon--setup 进 行 安装 : 


gpadmi n 
gpadmi n 
gpadmi n 
gpadmi n 
gpadmi n 
gpadmi n 
gpadmi n 
gpadmi n 


epoi 


KERJ 


5m 


图 10-10  gpperfmon-E 


An instance name is used by the Greenplum Performance monitor as 
identify a Greenplum Database that has the monitorin 
components installed and configured. 


a way to unique] 


specific instances of the Greenplum Performance monitors web UI. 
names cannot contain spaces. 


Please ma a new instance name. 
| | will reconfigure that instance: 


* LET 


he web componernt 


This name is also used to contro 
Instance 


Entering an existing 


of the Greenplum Performance Monitor can connect to a 
monitor database on a remote Greenplum Database. 


Is the master host for the Greenplum Database remote? vy|Nn (default-N): 


A | 

HE Ts rh hostname of the master: 
- 10. 20.151.7 
anat port oes the Greenplum Database use? 


配置 好 后 ， 运 行 gpperfmon--start testGPPerf 启 动 Web UI: 


$ bin/gpper: 
Starting instance LestGPPer1: 


fmon --start testGPPerf 
Fhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... 


(defaultz2345): 


图 10-11 gpperfmon 配 置 过 程 


Done. 


Os 


接 下 来 就 可 以 在 本 地 使 用 浏览 器 连接 了 ， 输 入 网 址 : 


启动 时 要 修改 pg_hba.conf， 加 入 gpmon 用 户 的 登录 权限 。 


https://10.20.151.7:28080/ 


输入 用 户 名 和 密码 ， 如 图 10-12 所 示 。 


dd 


pom em — 3 = Eee 


图 10-12 ”输入 gppetfmon Web UI 登录 信息 
登录 之 后 显示 如 图 10-13 所 示 的 界面 ， 其 中 左 侧 是 System Summary， 展 示 系统 层面 的 性 能 摘要 信息 ， 右 侧 是 数据 库 的 摘要 信息 。 


单 击 第 二 个 页 面 (SYSTEM METRICS) ， 展 示 了 系统 相关 的 性 能 信息 ， 在 右上 角 的 Duration 框 可 以 修改 时 间 ， 查 看 最 近 不 同时 间 段 的 性 能 变化 情况 ， 如 图 10-14 所 示 。 


(49 Greenplum 10.20.151.7 Welcome gpmon ^ Logout ^ About He 


system user idle 
nud E 
0.84% 0.133% 98.565% 


All Queries: 0 Running, 0 Queued | My Queries: 0 Running, 0 Queued 
Runtime (top active queries) 


Query ID | User | Database | Run time | Details 


534.539 MB 3406.527 MB 


CPU % (top active queries) 
| Query ID User Database CPU % | Details 
| 
| Read (MBytes/s) Write (MBytes/s) Read (ops/s) Write (ops/s) | | | | 
| | 
0.001 MB/s 0.487 MB/s 0.25 ops/s 13.5 ops/s CPU Total (top active queries) 
UIT Query ID User Database CPU total | Details 


Read (MBytes/s) Write (MBytes/s) Read (pkts/s) Write (pkts/s) 


n.n86 MR/« n.086 MR/s À 117.25 nkt«s/« 117.25 nkt«/« 


图 10-13 ”登录 后 第 一 个 页 面 


Yy 


! | SYSTEM METRICS 


QUERY MONITOR 
da "prem m Inr erp | 


(Al metrics | Detail (By Metric) | Realtime (By Server) Duration: | 1hour | v 


ASHBC RE 
crate! rastro eden e dn 


J tocado 
g Loadi 


- J J] Pagein (per/s) 


22:21 22:27 21:05 32:09 21:15 21:21 21:27 21:55 21:39 21:4$ 21:21 


Disk I/O (MB/s) 


lg Read (MBytes) 
B written (MBytes) 


图 10-14 系统 性 能 参数 展示 图 


GPperfmon 还 有 很 多 的 配置 及 特性 ， 很 多 的 参数 ， 具 体 的 使 用 ， 读 者 可 以 参考 GPPerfmonAdminGuide.pdf 这 个 文档 (在 安装 目录 下 的 docs 目 录 中 ) ， 该 文档 对 GPperfmon 的 使 用 有 很 详细 的 描述 。 


Qiz Greenplum 4.3 最 新 的 安装 文件 中 没有 自 带 greenplum-perfmon-web 的 更 新 安装 包 ， 经 笔者 实测 ，greenplum-perfmon-web-4.1.1.3 可 以 应 用 在 Greenpum 4.3 上 ， 安 装 步骤 流程 都 一 样 的 ， 很 方便 。 


10.3 ”监控 Segment 是 否 正常 


在 Greenplum 运 行 过 程 中 ，Segment 很 有 可 能 因为 压力 大 出 现 不 可 用 的 情况 ， 主 备 Segment 发 现 了 切换 ， 或 者 是 主 备 Segment 网 络 断 开 ， 数 据 不 同步 了 。 在 默认 情况 下 ， 如 果 Greenplum 3.x 版 本 中 
有 一 个 segment 失败 了 ， 数 据 库 会 切换 到 只 读 状 态 ， 运 行 在 上 面 的 任务 都 会 报错 ， 比 较 容 易 发 现 。 在 Greenplum4.x 版 本 中 ， 有 一 个 segment 失败 了 ， 数 据 库 还 是 会 正常 运行 的 ， 如 果 是 主 Segment 失 败 
了 ， 则 切换 到 备 Segment 上 ， 这 样 就 必须 对 Segment 是 否 正常 加 以 监控 ， 一 般 有 以 下 两 种 监控 方法 : 


1) 检查 gp segment_configuration 以 确定 是 否 有 Segment 处 于 down 的 状态 ， 或 者 查看 gp_configuration_history 以 观察 最 近 数 据 库 是 否 发 生 了 切换 。 


select * from gp segment configuration where status-'d' or mode<>'s'; 


注意 在 Greenplum 3.x 中 ， 配 置 表 为 gp_configuration， 查 询 SQL 为 : sclectrfrom gp. configuration where valid-'f ; 
不 过 在 Greenplum 3.x 中 ， 一 般 只 要 segment 失 败 了 ， 相 关 任 务 就 会 报错 ， 很 容易 发 现 ， 因 此 这 个 监控 一 般 不 用 加 。 


2) 还 有 一 个 就 是 Segment 已 经 卡 住 了 ， 但 是 Master 没 有 感知 到 Segment 失 败 ， 这 个 时 候 ， 首 先 就 是 要 监控 当前 运行 的 SQL 是 否 有 超过 很 长 时 间 的 。 其 次 就 是 要 在 Greenplum 中 建立 一 张 心跳 表 ， 这 张 
心跳 表 至 少 要 在 每 个 egment 都 有 一 条 记录 ， 然 后 不 断 去 更 新 表 中 所 有 的 记录 ， 当 发 现 这 个 SQL 超过 一 定时 间 都 没有 执行 完 ， 就 要 发 出 报警 。 


如 何 保证 每 个 Segment 都 有 一 条 记录 ? 下 面 介绍 一 个 方法 : 首先 创建 一 张 临 时 表 ， 其 中 的 数据 量 比 节点 数 大 很 多 ， 保 证 分 布 键 的 数据 比较 散 ， 确 保 每 个 segment 都 有 数据 ， 然 后 在 每 个 节点 上 取 一 条 数 


据 插入 新 的 一 张 表 中 ， 这 样 就 能 够 保证 每 一 个 egment 都 至 少 有 一 条 数据 ， 具 体 的 SQL 如 下 : 


@@ 创 建 临 时 表 ， 插 入 10000 条 数据 


create table xdual temp 

as 

select generate series(1,10000) id 
distributed by (id); 


@ 建 立 心跳 表 ，2 个 字段 ， 第 二 个 字段 是 timestamp 类 型 的 ， 每 次 心跳 检测 数据 会 被 更 新 


create table xdual(id int,update time timestamp (0) ) 
distributed by(id); 


@ 往 心跳 表 的 每 个 Segment 中 插入 一 条 数据 


insert into xdual(id,update time) 
select id,now() from B 

(select id,row number() over(partition by gp segment id order by id) rn 
from xdual temp 


where rn-1; 


效果 如 下 : 
testDB-4 select gp segment id,* from xdual order by 1; 
gp segment id | id update time 

0 1 2012-08-12 19:40:43 

1 4 | 2012-08-12 19:40:43 

2 9 | 2012-08-12 19:40:43 

3 2 | 2012-08-12 19:40:43 

4 3 | 2012-08-12 19:40:43 

5 8 | 2012-08-12 19:40:43 


(6 rows) 


心跳 检测 的 SQL 就 是 : update xdual set update time=now(0; 只 要 这 个 SQL 运行 正常 ， 就 是 代表 每 一 个 egment 都 是 正常 的 。 


10.4 VACUUM ZZ 


Greenplum 是 基于 MVCC 版 本 控制 的 ， 所 有 的 delete 并 没有 删除 数据 ， 而 是 将 这 一 行 数 据 标记 为 删除 ， 而 update 其 实 就 是 delete 加 insert。 所 以 ， 随 着 操作 越 来 越 多 ， 表 的 大 小 也 会 越 来 越 大 。 对 于 


OLAP 应 用 来 说 ， 大 部 分 的 表 都 是 一 次 导入 后 不 再 修改 的 ， 所 以 不 会 有 这 个 问题 ， 但 是 对 于 数据 字典 来 说 ， 就 会 随 着 时 间 表 越 来 越 大 ， 其 中 的 数据 垃圾 越 来 越 多 。 


所 以 ，Greenplum 提 供 一 种 VACUUM 的 工具 ， 可 以 回收 已 删除 行 占据 的 存储 空间 。 语 法 如 下 : 


E 


VACUUM [ FULL ] [ BOSE ] [ table ] 


VACUUM [ FULL ] [| 


E 


简单 的 VACUUM (没有 FULL) 只 是 简单 地 回收 空间 且 令 其 可 以 再 次 使 用 ， 通 过 简单 的 VACUUM 可 以 缓解 表 的 增长 。 这 个 命令 


求 排他 锁 。 


BOSE ] ANALYZE [ table [ (column [, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/0l 


EBPS/Text/...] 


执行 时 ， 其 他 操作 仍 可 以 对 表 的 读 写 等 并 发 操作 ， 因 为 VACUUM 没有 请 


VACUUM FULL 执 行 更 广泛 地 处 理 ， 包 括 跨 块 移动 行 ， 以 便 把 表 压 缩 至 使 用 最 少 的 磁盘 块 数目 存储 。 这 种 形式 要 慢 许多 且 在 处 理 的 时 候 需 要 在 表 上 施加 一 个 排 它 锁 。 在 PostgresQL 中 ， 提 供 了 自动 


VACUUM 的 功能 ， 但 是 由 于 Greenplum 中 大 部 分 的 表 是 不 需要 VACUUM 的 ， 所 以 AUTOVACUUM 是 关闭 的 。 


在 Greenplum 日 党 的 维护 过 程 中 ， 需 要 对 数据 字典 定期 执行 VACUUM ， 这 个 可 以 在 每 天 数据 库 比较 空闲 的 时 候 进 行 。 然 后 每 隔 一 段 比较 长 的 时 间 (两 三 个 月 ) 对 系统 表 执 行 一 次 VACUUM FULL, 这 


个 操作 需要 停机 ， 当 表 大 的 时 候 ， 这 一 步 会 比较 慢 ， 根 据 表 的 大 小 不 同 ， 有 可 能 会 长 达 几 个 小 时 。 执 行 VACUUM 之 后 ， 最 好 对 表 上 的 索引 进行 重建 (reindex) 。 


Qua ERIR, DRAREAGSRI—AGOROERÁAM, A Aen E gidi zs, spA—CAMBMAÁ, 3b AGÉSIAUTOVACUUM, EDE3 4-5, AUTOVACUUM E 43k 8942348, Arkua, PR 


以 在 平时 维护 中 ， 要 留意 事务 号 可 以 通过 下 面 这 个 SQL 来 看 数据 库 中 的 事务 号 消耗 : 


select gp segment id,datname,datfrozenxid,age (datfrozenxid) 
from gp dist random('pg database') where datname-'testDB'; 


Jw age (datfrozenxid) 超过 2 亿 ， 就 会 触发 AUTOVACUUM。 如 果 全 部 事务 号 只 剩 下 100w， 那 么 数据 库 为 了 保护 数据 安全 ， 


库 ， 对 整个 数据 库 执行 YACUUM 回 收 事务 号 之 后 才能 够 启动 。 


下 面 通过 一 个 例子 来 介绍 VACUUM 的 效果 。 


测试 的 数据 库 从 来 没有 进行 过 VACUUM ， 先 查询 出 pg_class 中 最 大 的 ctid (可 以 看 做 是 数据 块 的 位 置 ， 在 没有 VACUUM 的 时 候 ，ctid 一 直 是 递增 的 ) : 


testDB-4 select max(ctid) from pg class; 
max 


(10,163) 
(1 row) 


看 出 最 大 值 是 (10, 163) 之 后 创建 两 张 表 ， 并 查询 其 新 的 ctid 值 : 


StDB=# create table test vacuuml (a int) distributed by (a); 


C 

testDB=# create table test vacuum2(a int) distributed by (a); 

CREATE TABLE 

testDB=# select ctid,relname from pg class where relname like 'test vacuum$'; 
ctid | relname 

一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

(10,164) | test Vacuuml 


整个 数据 库 都 会 挂 榨 ， 无 法 启动 ， 只 能 使 用 standalone、 单 用 户 模式 启动 数据 


(10,165) | test vacuum2 
(2 rows) 


可 以 看 出 ， 由 于 这 个 库 从 来 没有 进行 过 VACUUM ， 因 此 新 建 的 两 张 表 的 ctid 值 是 在 之 前 的 值 上 递增 的 。 然 后 对 pg_class 进 行 VACUUM ， 建 表 之 后 再 测试 。 


testDB-$ VACUUM pg class; 


testDB-$ create table test vacuum3(a int) distributed by (a); 
CREATE TABLE 
testDB-$ select ctid,relname from pg class where relname like 'test vacuum$'; 


ctid | relname 
—————————— 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
(2,36) | test vacuum3 
(10,164) | test vacuuml 
(10,165) | test vacuum2 
(3 rows) 


可 以 看 出 ， 在 执行 VACUUM 之 后 ， 表 的 空间 被 回收 了 ， 新 插入 的 pg_class 记 录 所 在 的 数据 块 被 重用 了 。 但 是 VACUUM 并 不 会 对 原 有 的 记录 做 任何 改变 。 


接着 对 pg _class 进 行 VACUUM FULL， 首 先 查 出 pg_class 的 大 小 ， 然 后 进行 VACUUM FULL， 之 后 观察 表 的 大 小 变化 。 


testDB-4 select pg relation size('pg class'); 
pg relation size 


2523136 
(1 row) 
testDB-$ VACUUM FULL pg class ; 
NOTICE:  'VACUUM FULL' is not safe for large tables and has been known to yield unpredictable runtimes. 
HINT: Use 'VACUUM' instead. 
VACUUM 
testDB=# select pg relation size('pg class'); 


pg relation size 


testDB-4 select ctid,relname from pg class where relname like 'test vacuum$'; 
ctid | relname 
r—————R 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
(2,36) | test vacuum3 
(2,127) | test vacuuml 
(2,128) | test vacuum2 
(3 rows) 


10.5 2j HEER 

对 于 Greenplum 这 种 并 行 执行 的 数据 库 ， 负 载 均衡 其 实 是 通过 数据 均匀 分 布 来 实现 的 ， 如 果 表 的 数据 不 均衡 ， 则 数据 多 的 节点 会 比 其 他 节点 压力 大 。 根 据 木 桶 原理 ， 时 间 消 耗 会 卡 在 数据 多 的 节点 上 。 
所 以 ， 使 用 Greenplum 必 须 时 刻 保持 数据 均匀 分 布 。 

Greenplum 的 数据 分 布 是 通过 设置 分 布 键 来 实现 的 ， 因 此 设置 合理 的 分 布 键 就 非常 重要 。 在 第 2 章 中 简单 介绍 了 分 布 键 的 使 用 ， 这 里 总 结 一 下 ， 分 布 键 设置 的 一 些 原则 如 下 。 

一般 使 用 数据 比较 均匀 、 空 值 很 少 的 字段 作为 主键 〈 最 合适 的 就 是 主键 ) 。 


* 依据 第 5 章 执行 计划 中 介绍 的 ， 两 表 关 联 时 可 能 会 造成 数据 广播 或 者 重 分 布 ， 所 以 选择 分 布 键 的 时 候 要 适当 考虑 这 个 表 与 其 他 表 最 常用 的 关联 键 。 除 此 之 外 ，group by. window function 都 会 造成 数据 重 
分 布 。 


“ 关联 键 与 唯一 键 不 一 样 要 有 所 取 会 。 
下 面 来 介绍 如 何 看 出 一 个 表 是 否 分 布 均 匀 。 
1. 使 用 隐藏 字段 gp segment id 


通过 使 用 gp segment id 作为 group by 字段 ， 可 以 看 到 每 个 Segment 的 数据 量 ，SQL 如 下 (其 中 Group by 1 中 的 1 代表 select 的 第 一 个 字段 ， 即 gp segment id) 。 


testDB-4 select gp segment id,count(1) from offer 4 group by 1 order by 1; 
gp segment id | count 


(6 rows) 


2. 使 用 get ao distribution 


在 第 6 章 讲 到 了 appendonly 表 的 特性 ， 我 们 可 以 利用 get_ao _ distribution 获取 每 个 egment 的 数据 量 。 


testDB-4 select * from get ao distribution('offer 4'); 
segmentid | tupcount 


(6 rows) 


3. 使 用 pg relation size 和 gp dist random 


利用 这 两 个 函数 ， 可 以 查询 表 对 应 的 数据 文件 大 小 ， 从 而 确定 这 个 表 是 否 分 布 均匀 。 


testDB=# select gp segment id,pg relation size (oid) 
testDB-$ from gp dist random('pg class") 
testDB-$ where relname 'offer 4'; 


gp segment id | pg relation size 


1 115857464 
0 115690216 
5 115799064 
3 116315936 
2 
4 


115439608 
115282984 


(6 rows) 


RDERAAGREEEUU]N, TAEDA TATE EUH HRS Rz T ERTER, EACXEML— T BIS SIE: 最 大 子 节点 数据 量 / 平 均 节点 数据 量 。 为 避免 整 张 表 数据 量 为 空 ， 同 时 对 结果 的 影 
响 很 小 ， 要 将 平均 节点 数据 量 加 上 一 个 很 小 的 值 。 


SQL 如 下 : 


select tabname,max (size)/ (avg(size)+0.001) as max div avg ,sum(size) total size 
from ( 
select gp segment id,oid::regclass tabname,pg relation size(oid) size 
from gp dist random('pg class!) 
where relkind-'r' and relstorage in ('a','h') 
)t group by tabname 
order by 2 desc; 


SQL 执行 的 效果 如 图 10-15 所 示 。 


LtestDB- select tabname,max(size)/(avg(size)-0.001) as max div avg ,sum(size) total size 
testDB-4 from ( 

testDB(£ 

testDB(£ 

testDB(£ 


p4áp problem 5. 9999999895368304 
5. 9996250234360352 96 
2.9999999996828438 56754176 
1. 3008340584495060 2866936 
1.12471263398618275225 663408328 
1.1201854650535533 2233237504 


p4p request 
cxfa 
testūl 
offer_3 
member 


| 
十 
| 
test offer temp | 5. 999998901 367 3923 32768 
| 
| 
| 
| 
| 


图 10-15 ”查询 数据 库 中 表 的 数据 倾斜 率 
通过 这 种 方法 找 出 整个 数据 库 中 发 生 数 据 倾斜 的 表 ， 比 较 简 单 ， 也 很 容易 操作 ， 相 比 起 前 两 种 效率 高 很 多 ， 但 是 当 数 据 库 中 表 非 常 多 的 时 候 ， 这 个 方法 的 性 能 也 有 问题 。 下 面 介 绍 另外 一 种 方法 。 
4. 对 整个 数据 目录 做 Is 


每 个 表 对 应 的 文件 名 保存 在 pg_class 中 的 relfilenode 字 段 中 ， 这 样 我 们 可 以 通过 操作 系统 命令 ls-| 对 整个 数据 库 目 录 中 的 所 有 文件 进行 遍历 ， 生 成 数据 文件 ， 然 后 将 文件 导入 数据 库 中 ， 与 pg_class 关 
联 ， 然 后 再 比较 找 出 发 生 数 据 倾斜 的 表 。 这 种 方法 比较 麻烦 ， 需 要 读者 自己 编写 脚本 ， 如 果 数 据 库 中 有 非常 多 的 表 ， 这 种 方法 无 疑 是 性 能 最 高 的 。 


Qus 使 用 这 种 方法 需要 处 理 数据 文件 超过 1GB 拆 分 的 问题 : 当 一 个 数据 文件 超过 1GB 的 时 候 ， 数 据 库 会 将 超过 1GB 的 部 分 放 在 文件 名 .1 的 文件 中 ， 超 过 2GB 的 放 在 .2 的 文件 中 ， 以 此 类 推 (在 前 面 介 
绍 的 ， 列 存储 也 有 这 个 问题 ， 处 理 方 法 一 样 ) 。 在 编写 脚本 的 时 候 如 果 要 处 理 这 个 问题 ， 将 文件 名 后 面 的 .1、.2… 去 掉 。 


10.6 ”查看 子 节 点 的 SQL 运 行 状态 


查询 Master 上 面 的 SQL 的 执行 ， 主 要 通过 视图 pg_stat_activity 来 完成 。 通 过 这 个 视图 可 以 获取 当前 Greenplum 的 任务 执行 情况 ， 如 图 10-16 所 示 。 


testDB=# \X 
Expanded display is on. 

testDB=# select * from pg-stat.- activity; 
-[ RECORD 1 ]---—- 

datid 

datname 

procpid 

sess 1d 

useswys 1d 

username 

current query 
waiting 

query start 
backend start 
client addr 
client port 
application name 
Xxact start 


gpadmin 

E * from pg stat. activity; 
2012-07-29 18:427 150. 089297+08 
2012-07-29 17:37:16. 531226+08 


2012-07-29 17:43:50.195667+08 


图 10-16 ”查询 SQL 运行 情况 


而 Greenplum 本 身 并 没有 提供 一 个 工具 用 于 很 好 地 观察 每 个 子 节点 SQL 的 执行 状态 ， 如 果 我 们 想 看 某 一 个 子 节点 上 运行 的 SQL， 需 要 使 用 utility 模 式 连 接 到 Segment 上 ， 然 后 再 查看 。 这 里 将 介绍 如 何 


在 Master 上 建立 一 个 视图 ， 方 便 查 询 gegment 上 的 SQL。 


查询 每 个 子 节点 的 SQL 将 用 到 前 面 10.5 节 介绍 的 gp_dist_random 函 数 。 在 开始 编写 all_seg_sql 视 图 之 前 ， 我 们 先 来 讨论 一 下 ， 在 Greenplum 中 的 函数 是 如 何 执行 的 ， 是 在 Master 上 执行 ， 还 是 在 


Segment 上 执行 。 


testDB=# select current setting('data directory'); 

current setting 

/home/gpadmin/gpdata/gpmaster/gpseg-1 
(1 row) 


current _setting 国 数 是 显示 系统 参数 ，data_directory 代 表 数 据 目 录 。 上 述 SQL 显 示 了 Master 的 数据 目录 ， 如 果 要 查询 Segment 的 数据 目录 呢 ， 使 用 gp_dist_ random 可 以 吗 ? 


testDB-4 select current setting('data directory') from gp dist random('gp id'); 
current setting 
/home/gpadmin/gpdata/gpmaster/gpseg-1 
/home/gpadmin/gpdata/gpmaster/gpseg-1 
/home/gpadmin/gpdata/gpmaster/gpseg-1 


/home/gpadmin/gpdata/gpmaster/gpseg-1 
/home/gpadmin/gpdata/gpmaster/gpseg-1 
/home/gpadmin/gpdata/gpmaster/gpseg-1 
(6 rows) 


可 以 看 出 ， 查 询 出 来 的 结果 还 是 Master 上 的 ， 说 明 这 个 函数 是 在 Master 上 执行 的 ， 而 要 让 这 个 函数 在 Segment 上 执行 ， 方 法 有 下 面 两 个 。 


-— áÀ— " x: 
EE: EH —ANSD EL 
| HJ-GcH MZ: |l'——F-X 


testDB-4 select current setting (replace ('data directory'||gpname,gpname, '')) 
B-# from gp dist random('gp id'); 
current setting 

/ home/gpadmin/gpdata/gpdatapl/gpseg?2 

/ home /qpadmin/gpdata/gpdatapl /gpseg4 

/home/gpadmin/gpdata/gpdatap? /gpseg5 

/home/gpadmin/gpdata/gpdatapl /gpsegO 

/home/gpadmin/gpdata/gpdatap? /gpseg3 

/home/gpadmin/gpdata/gpdatap? /gpseg1 

(6 rows) 


上 面 这 个 SQL 将 data _directory 字 符 串 拼接 到 gpname 字 段 ， 然 后 再 把 这 个 字段 给 蔡 换 成 空 ， 看 似 做 了 一 个 完全 无 用 的 动作 ， 但 是 ， 由 于 参数 中 有 查询 的 表 的 字段 ， 这 个 函数 放 到 了 segment 上 去 执 
所 以 查询 出 来 的 结果 就 是 Segment 上 的 数据 目录 了 。 


Qua 表 gp_id 在 每 个 Segment 中 只 有 一 行 数据 ， 利 用 此 特性 ， 可 以 结合 gp_dist_random 查 询 每 个 Segment 的 信息 。 


创建 一 个 函数 ， 将 current_settings 包 起 来 ， 如 下 : 


create or replace function public.get setting(setname varchar) 
RETURNS text 


return current setting (setname); 


SBODYS 
LANGUAGE 'plpgsql' 


. 
r 


然后 再 使 用 get_setting 查 询 : 


testDB-4 select get setting('data directory!) 


get se 


/home/gpadmin/gpda 


/home/gpadmin/gpdat 


/home/gpadmin/gpdat 
/home/gpadmin/gpdat 


from gp dist random('gp id'); 


tting 

ta/gpdatapl/qgpseg4 
a/gpdatap2/gpseg5 
ta/gpdatap?/gpseg3 
ta/gpdatapl/gpseg2 


/home/gpadmin/gpdata/gpdatapl1 /gpsegO 
/home/gpadmin/gpdata/gpdatap? /gpseg1 
(6 rows) 


利用 以 上 两 种 方法 都 可 以 使 国 数 在 Segment 上 执行 ， 有 了 这 个 ， 我 们 就 可 以 在 Master 上 创建 all seg_sql 这 个 视图 了 。 下 面 是 创建 all seg_sd| 的 三 个 步骤 。 


1) 创建 v_active_sql 视 图 方便 查看 SQL 


EATE VIEW v active . sql AS 

ELECT pg stat activity.procpid, pg stat activity.sess id, pg stat activity.usename, pg stat activity.waiting AS w, to char(pg stat activity.query start, 'mm-dd hh24:mi:ss'::te 
FROM pg stat activity 
WHERE pg stat activity.current query <> '«IDLE»'::text 
ORDER BY pg stat activity.datname, to char(pg stat activity.query start, 'yyyymmdd hh24:mi:ss'::text); 


oO 
JA 


2) 创建 获取 ip 的 函数 


CREATE or replace FUNCTION public.hostip () 

RETURNS text 
AS $$ 

import socket 

return socket.gethostbyname (socket.gethostname () ) 
$$ LANGUAGE plpythonu; 


3) 创建 all seg sqlERqz 


Create view public.all seg sql 

as 

select hostip(), 
current setting (replace('port'||current query,current query,'')) as port, 
current setting (replace ('gp contentid'||current query,current query,'')) 
as content, * 

from gp dist random('v active sql') 

where current | query <> '<IDLE>'; 


查询 效果 如 图 10-17 所 示 。 


LestDB-f EUIS * from all. seg sql; 
| current query 


content | procpid 


gpadmin | : 9 21:13:22 z all seg sql; 
gpadmi n 7-29 2 - all seg sql; 
gpadmin 7-2 3 seli * fr all seg sql; 
gpadmin j :2 | all. seg sql; 
gpadmin -2 9:2; | m all. seg sql; 
gpadmi n '-20 21:13:. | select * all seg sql; 


十 
| 
| 
| 
| 
| 


————— 中 


图 10-17 all seg sql 查询 结果 


10.7 ”自动 加 分 区 


对 于 数据 库 应 用 来 说 ， 记 历史 是 对 业务 分 析 的 常见 手段 。 对 于 这 些 记录 历史 表 ， 通 常 按 天 分 区 ， 即 每 天 都 是 一 个 分 区 ， 将 每 天 的 全 量 或 增 量 数 据 保存 到 这 个 分 区 中 。 
Quse 记 历 史 就 是 将 每 一 个 的 记录 都 保留 下 来 ， 然 后 可 能 通过 分 析 每 天 的 变化 来 预测 业务 的 发 展 ， 或 者 分 析 当 前 业务 的 状态 等 。 常 用 的 算法 是 拉链 记 历 史 ， 在 第 3 章 简单 介绍 这 种 方法 。 
对 于 这 种 应 用 ， 需 要 有 一 个 脚本 自动 增加 每 天 的 分 区 ， 如 果 手 工 加 ， 当 表 多 的 时 候 会 很 麻烦 。 下 面 简单 介绍 下 如 何 自动 加 分 区 ， 以 及 加 分 区 的 策略 。 


要 实现 自动 加 分 区 ， 分 区 必须 有 一 定 的 规则 才 行 。 每 个 公司 的 应 用 场景 不 一 样 ， 有 一 些 分 区 可 能 跟 业务 相关 ， 不 能 够 简单 地 实现 自动 加 分 区 。 这 里 只 介绍 最 简单 的 分 区 ， 也 是 数据 库 中 最 常用 到 的 ， 按 
时 间 分 区 (包括 按 天 ， 按 月 分 区 ) 。 有 具体 规则 如 下 。 


1) 按 天 分 区 ， 分 区 名 为 p+yyyymmdd (如 p20120801) ; 按 月 分 区 ,分 区 名 为 p+yyyymm (如 p201208) 。 
2) 分 区 类 型 支持 list 分 区 和 range 分 区 。 
3) 自动 加 分 区 必须 将 原 表 先 建 好 ， 而 且 建 好 的 子 分 区 数 必 须 超过 这 样 脚本 才能 判断 两 个 分 区 之 间 的 时 间 间 隔 
分 区 键 支持 多 种 数据 类 型 ， 但 是 这 个 数据 类 型 必须 能 够 通过 类 型 转换 ， 直 接 可 以 转换 成 date 类 型 。 如 果 是 字符 类 型 ， 那 么 时 间 格 式 为 yyyymmdd。 


5) 子 分 区 表 的 其 他 属性 与 父 表 一 致 ， 比 如 appendonly=true，compresslevel=5 (注意 ， 这 些 参数 必须 在 增加 分 区 之 后 指定 ， 默 认 并 不 会 从 父 表 中 继承 ) 


o 


6) 这 里 只 处 理 一 层 分 区 ， 两 层 的 分 区 这 里 不 考虑 。 
7) 分 区 键 只 有 一 个 字段 。 
下 面 就 是 自动 加 分 区 的 例子 。 


创建 range 分 区 ， 在 子 分 区 中 可 以 指定 字段 的 起 始 值 和 结束 值 。 


create table public.tbl partition range yyyymmdd( 
id numeric 


; Yyyymmad date 


) with (appendonly-true, compresslevel-5) 
Distributed by (id) 
PARTITION BY range (yyyymmdad) 


PARTITION p20120811 START ('2012-08-11'::date) END ('2012-08-12'::date), 
PARTITION p20120812 START ('2012-08-12'::date) END ('2012-08-13'::date) 


创建 list 分 区 ， 每 个 分 区 对 应 一 个 具体 的 值 : 


create table public.tbl partition list yyyymmdd( 
id numeric 
; Yyyymmad varchar (128) 

) with (appendonly-true, compresslevel-5) 

Distributed by (id) 

PARTITION BY list(yyyymmdd) 


PARTITION p20120811 values('20120811'), 
PARTITION p20120812 values ('20120812') 


创建 一 个 辅助 视图 : 


create view public.v pg add partitions 


as 
SELECT pp.parrelid tableoid,prl.parchildrelid,prl.parname as partitionname, 
CASE 
WHEN pp.parkind = 'h'::"char" THEN 'hash'::text 
WHEN pp.parkind = 'r'::"char" THEN 'range'::text 
WHEN pp.parkind = 'l'::"char" THEN 'list'::text 
ELSE NULL::text 
END AS partitiontype, 
translate (pg get expr(prl.parlistvalues, prl.parchildrelid), '-'':date character varying bpchar numeric double precision timestamp without time zone', '') AS partitonl 
substring (translate (pg get expr(prl.parrangestart, prl.parchildrelid), '-'':date character varying bpchar numeric double precision timestamp without time zone', ''),1, 
substring(translate(pg get expr(prl.parrangeend, prl.parchildrelid), '-'':date character varying bpchar numeric double precision timestamp without time zone', ''),1,8) 
pri.parruleord AS partitionposition, 
substring(parlistvalues,'consttype ([0-9]-*4)')::integer::regtype listtype, 
substring (parrangeend, 'consttype ([0-9]*4)')::integer::regtype rangetype 
FROM pg partition pp, pg partition rule pri 


WHERE pp.paristemplate = false AND prl.paroid = pp.oid ; 


这 个 视图 的 每 一 个 字段 的 描述 如 表 10-1 所 示 。 
表 10-1 v_pg add_pattitions 视 图 的 字段 描述 
字段 名 数据 类 型 摘 
tableold old 对 应 分 区 表 父 表 的 oid 
parchildrelid oid 对 应 了 于 分 区 的 oid 


P» 
[x 


partitionname name 子 分 区 的 分 区 名 


partitiontype text 子 分 区 的 类 型 (list 或 者 range) 


3, 


| mme — 

ETC NN 

partitonlistvalue List 类 型 分 区 的 values fH, 4 7J range 分 区 则 为 空 

partitionrangestart text range 分 区 的 起 始 什 ， 奉 为 list 分 区 则 为 室 ， 格 式 为 yyyymmdd 或 者 
LN yyyymm 

partitionrangeend text range 分 区 的 结束 值 ， 夺 为 lst 分 区 则 为 空 ， 格式 为 yyyymmdd 或 者 

partitionposition 该 子 分 区 位 于 分 区 表 的 序号 

listtype regtype list 分 区 ， 分 布 键 的 数据 类 型 

rangetype range 分 区 ， 分 布 键 的 数据 类 型 


创建 生成 增加 分 区 的 语句 ， 第 一 个 参数 表示 分 区 表 的 oid， 第 二 个 参数 是 增加 分 区 到 今天 之 后 的 第 几 天 : 


CREATE or replace FUNCTION public.add partition info(tableoid oid,days from now integer) 
RETURNS setof text 


AS $$ 
import datetime 
def now(): 


d = datetime.datetime.now() 

format-'$£$Y£m$d' 

return datetime.datetime.strftime (d, format) 

def aad day (d,n): 

format-'$Y$m$d' 
d2 = datetime.datetime.strptime (d, format) 
d3 = d2 + datetime.timedelta (days = n) 
return datetime.datetime.strftime (d3, format) 

def add month (d,n): 

format-'£Y$m$d' 

formatymd-!'£Y$m01' 

if d. len ()==6: 

format-'$£Y£m' 

formatymd-!'£Y$m' 


d2 = datetime.datetime.strptime (d, format) 
d3 = d2 + datetime.timedelta (days = 31*n) 
return datetime.datetime.strftime (d3, formatymd) 


relist-[] 
sql-"""select * from ( 

select *,tableoid::regclass tablename,lead(case when partitionrangeend «»'' then partitionrangeend else partitonlistvalue end) 
over(partition by tableoid order by partitionposition desc) as pre value, 
row number() over(partition by tableoid order by partitionposition desc ) rn 
from v pg add partitions 

where substr (partitionname,1,3)-2'p20' 

and tableoid-$s 
)t where rn-1;"""£(tableoid); 

rv = plpy.execute (sql); 
Sql relation-"select array to string(reloptions,',') reloptions from pg class where oid-$s"$ (tableoid) 
rv relation = plpy.execute (sql relation) 
if rv.nrows()!-1: 
return None 
else: 


reloptions - rv relation[0]['reloptions'] 
tablename-rv[0]['tablename!] 

partitiontype = rv[0]['partitiontype'] 
partitionname = rv[0]['partitionname!] 

pre value = rv[0]['pre value'] 

now add JONG = add day(now(),days from now) 
# 处 理 range 分 区 


if partitiontype--'range' 


rangetype- rv[0]I"' ii gue 
partitionrangestart = rv[0]['partitionrangestart'] 
partitionrangeend = rv[0]['partitionrangeend'] 
interval = int(partitionrangeend) - int(pre value) 
# 按 月 分 区 
if partitionname. len  ()--7: 
func add = add month 
interval = int(partitionrangeend[0:6]) - int(pre value[0:6]) 
# 按 天 分 区 
elif partitionname. len ()==9: 


func add = add day 
# 分 区 名 不 符合 规范 ， 不 处 理 


else: 


return None 


while partitionrangestart«now add 7days: 
partitionrangestart = func add(partitionrangestart,interval) 
partitionrangeend = func add(partitionrangeend, interval) 
partitionname = "p" + func add(partitionname[1:],interval) 
add sql = "alter table $s add partition $s start ('$s'::$s) end ('$s'::$s) "£(tablename,partitionname,partitionrangestart, rangetype,partitionra-ngeend, rangetype 
if reloptions !-None and reloptions!-'': 
add sql4-'with($s);'$(reloptions) 
else: 
add sql+= ="; e WW 
relist.append(add sql) 
if partitiontype--'list': 
listtype-rv[0] [' listtype' ] 
partitonlistvalue-rv[0]['partitonlistvalue'] 


interval = int(partitonlistvalue) - int(pre value) 
# 按 月 分 区 

if partitionname. len ()==7: 

func add = add : month 

# 按 天 分 区 
elif partitionname. len  ()--9: 
func add - add day 

# 分 区 名 不 符合 规范 ， 不 处 理 


else: 


return None 


while partitonlistvalue«now add 7days: 
partitonlistvalue = func add(partitonlistvalue,interval) 
partitionname = "p" + func add(partitionname[1:],interval) 
add sql = "alter table $s add partition $s values ('$s'::$s) 
"$ (tablename,partitionname,partitonlistvalue,listtype) 


if reloptions !-zNone and reloptions!-'': 

add sqlt-'with($s);'$(reloptions) 

else: 

add sql4-";" 

relist.append (add sql) 
return relist E 

$$ LANGUAGE plpythonu; 


使 用 效果 如 下 ， 增 加 当前 时 间 3 天 内 的 分 区 


testDB-$ select add partition info('tbl partition range yyyymmad'::regclass,3); add partition info 


alter table tbl partition range yyyymmdd add partition p20120813 start ('20120813'::date) end ('20120814'::date) with (appendonly-tr 
ue, compresslevel-5); 
alter table tbl partition range yyyymmdd add partition p20120814 start ('20120814'::date) end ('20120815'::date) with (appendonly-tr 
ue, compresslevel- ); 
alter table tbl partition range yyyymmdd add partition p20120815 start ('20120815'::date) end ('20120816'::date) with (appendonly-tr 
ue, compresslevel-5); 

(3 rows) 


10.8 EIE 


一 般 数 据 库 会 有 很 多 不 同类 型 的 用 户 ， 有 一 些 用 户 只 有 对 表 的 只 读 权限 ， 有 一 些 则 有 对 表 有 读 写 的 权限 。 有 时 ， 我 们 需要 将 所 有 特定 的 表 的 只 读 权限 赋予 其 中 一 个 用 户 。 下 面 简 单 介绍 下 如 何 找 出 将 某 
个 schema 下 用 户 aquery 没 有 权限 的 表 ， 然 后 生成 左权 语句 ， 赋 予 aquery 用 户 这 些 表 的 只 读 权 限 。 


select 'grant select on '||nspname||'.'||relname||' to aquery;' 
from pg class a,pg namespace b 
where relname not like '$ 1 prt$' 
and relkind - 'r' m 
and has table privilege('aquery',a.oid,'select!)-'f' 
and a.relnamespace-b.oid 
and nspname not in ('pg catalog','information schema') 
and nspname not like '$pg temp$'; 


通过 上 面 的 SQL， 就 可 以 直接 生成 赋 权 的 SQL， 每 天 只 需要 调用 这 个 SQL， 然 后 执行 生成 的 赋 权 语句 ， 就 可 以 实现 自动 赋 权 了 。 


10.9 ”清理 过 期 数据 


进行 


数据 库 在 正常 使 用 的 情况 下 一 般 会 对 用 户 提供 开发 测试 功能 。 出 于 效率 上 的 考虑 ， 一 般 对 测试 的 表 没 有 很 严格 的 限制 ， 这 样 就 会 导致 数据 库存 在 很 多 临 


， 一 般 一 个 月 以 前 的 表 都 是 没有 用 的 ， 可 以 删除 的 ， 但 是 开发 人 员 一 般 会 志 记 删除 表 。 对 于 DBA 来 说 ， 就 是 希望 把 数据 库 中 一 个 月 前 


AFFAN 


， 然 后 配 成 定时 任务 ， 每 天 将 这 些 表 自动 删除 。 


在 第 4 章 介绍 数 据 字 典 的 时 候 ， 讲 过 如 何 获取 数据 文件 的 操作 时 间 ， 从 而 找 出 表 的 近似 建立 时 间 ， 通 过 这 个 时 间 ， 我 们 就 可 以 将 过 期 数据 清理 掉 ， 如 果 开 发 测试 建 的 表 只 能 够 建立 在 某 一 个 schema ( 比 
如 devtest) 下 面 ， 那 么 生成 删除 表 脚 本 的 SQL 如 下 : 


select 'drop table ' ||schemaname||'.'||tablename||';' 
from v table modify time 

where access«now()-'30 days'::interval 
and tablename not like '$ 1 prt p$' 
and schemaname-'devtest' 


order by access ; 


10.10 小结 


本 章 主 要 介绍 了 几 种 数据 库 监 控 的 方法 ， 通 过 这 个 方法 ， 数 据 库 管 理 员 可 以 及 时 发 现 数据 库 发 生 的 问题 ， 并 且 在 问题 出 现 后 可 以 快速 定位 并 解决 问题 。 对 于 监控 ， 主 要 介绍 如 下 。 
. 操作 系统 监控 磁盘 、CPU 等 信息 的 工具 

: Greenplum 自 带 的 GPmonitot 的 安装 及 使 用 方法 

. 监控 Segment 状 态 是 否 正常 


介绍 了 日 常 管理 中 调 优 常 用 的 方法 ， 以 及 调 优 时 的 注意 事项 。 在 日 常 维护 的 时 候 ， 需 要 定时 Vacuum 数 据 字 典 表 ， 避 免 数据 字典 快速 膨胀 。 通 过 分 析 所 有 表 的 大 小 ， 找 出 数据 库 中 发 生 数 据 倾斜 的 表 ， 
及 早 发 现 问题 ， 避 免 因 大 量 数据 倾斜 导致 数据 库 性 能 很 差 ， 或 者 某 个 Segment 因 压力 过 大 而 失败 。 当 数据 库 慢 的 时 候 ， 可 以 通过 all_seg_sq| 来 分 析 数 据 库 每 个 Segment 都 在 执行 什么 SQL， 有 助 于 了 解数 据 
库 运 行 、 某 个 Segment 压 力 过 大 的 原因 。 


最 后 介绍 了 DBA 日 常 使 用 的 维护 工具 ， 以 及 自动 加 分 区 、 赋 权 及 清理 过 期 数据 的 一 些小 技巧 。 


第 11 章 ”解读 Greenplum 维 护 脚 本 


Greenplum 自 带 了 很 多 维护 数据 库 的 脚本 ， 熟 读 这 些 脚 本 有 助 于 理解 Greenplum 的 架构 ， 以 及 当 Greenplum 出 现 问题 时 ， 能 够 更 快速 地 找到 解决 的 办 法 。 本 章 首先 介绍 在 Greenplum 中 怎么 安装 
PostgreSQL 中 自 带 的 contrib 插 件 ， 之 后 挑选 几 个 比较 重要 的 脚本 进行 解读 ， 使 读者 在 阅读 源码 时 更 容易 理解 。 


11.1 添加 Greenplum Contrib 模 块 


PostgreSQL 的 contrib 中 提供 了 很 多 有 用 的 工具 ， 我 们 都 知道 ，Greenplum 是 基于 PostgreSQL 开 发 的 ， 所 以 在 Greenplum 中 也 可 以 安装 这 些 工具 ， 从 而 方便 使 用 数据 库 。 
下 面 介绍 在 Greenplum 中 如 何 编译 及 安装 Contrib 的 插件 。 


Contrib 模 块 的 源码 在 PostgreSQL 的 源码 包 中 ， 由 于 Greenplum 是 基于 PostgreSQL8.2.x 开 发 的 ， 因 此 我 们 这 里 相应 地 下 载 PostgreSQL8.2.x 的 源码 ， 然 后 编译 源码 (不 用 install) 。 


./configure 
make 


Greenplum 与 原生 的 PostgreSQL 在 库 包 上 有 所 不 同 ， 如 果 要 在 Greenplum 中 使 用 contrib 中 的 工具 ， 必 须 使 用 Greenplum 头 文件 和 库 文 件 。 方 法 就 是 修改 srcC/Makefile.global 文 件 。 
这 里 以 PostgreSQL-8.2.20 为 例 ， 讲 解 如 何在 Makefile.global 中 加 入 Greenplum 4.1.1.1 的 头 文件 和 库 文 件 。 
首先 ， 下 载 PostgreSQL8.2 的 源 代 码 ， 设 置 环境 变量 GPHOME (Greenplum 集 群 中 一 般 已 经 设 定 了 ) 。 


其 次 ,修改 PostgreSQL8.2 源 代码 中 的 src/Makefile.global 文 件 ， 在 #Compilers 和 CPP=gcc-E 之 间 加 入 下 面 这 段 内 容 ， 定 义 Greenplum 的 类 库 : 


f Compilers 


# add start 

GPINCL = -I$ (GPHOME)/include -I$ (GPHOME)/include/postgresql -I$ (GPHOME)/include/libpq -I$ (GPHOME)/include/postgresql/server -I$ (GPHOME)/include/postgresql/internal 
GPLIB = -L$(GPHOME)/lib -LS (GPHOME)/lib/postgresql 

ifndef USE PGXS 


CFLAGS = $ (GPINCL) 
LDFLAGS = $ (GPLIB) 
endif 
# add end 

CPP = goce =H 


X95, EXSISTTIBBSPI EROS sme, S PIBIBS: 


CFLAGS = -O2 -Wall -Wmissing-prototypes -Wpointer-arith -Winline -Wdeclaration-after-statement -Wendif-labels -fno-strict-aliasing -fwrapv 


CFLAGS += -02 -Wall -Wmissing-prototypes -Wpointer-arith -Winline -Wdeclaration-after-statement -Wendif-labels -fno-strict-aliasing -fwrapv 
即 将 "x 改 为 “p” 


将 LDFLAGS= 注 释 掉 ， 避 免 覆盖 掉 上 面 的 定义 : 


#LDFLAGS = 


在 LDFLAGS 中 ,将 $ (LDFLAGS) 放 在 前 面 (前 面 已 经 设置 了 LDFLAGS 为 GPLIB) ， 从 而 保证 Greenplum 的 库 文 件 优先 被 使 用 。 将 下 面 的 : 


override LDFLAGS := -L$(libdir) S$(LDFLAGS) 
修改 为 : 
override LDFLAGS := $ (LDFLAGS) -L$(libdir) $ (LDFLAGS) 


将 修改 保存 后 就 可 以 编译 contrib 中 的 模块 了 。 下 面 以 编译 tablefunc 为 例 ， 在 contrib/tablefunc 下 运行 make， 完 成 编译 后 会 多 两 个 文件 : 


-rw-rw-r-- 1 gpadmin gpadmin 2.2K May ] 
-rwxrwxr-x 1 gpadmin gpadmin 25K May 1 


1 tablefunc.sql 
1 tablefunc.so 


CO w 
«XO «oO 
OoOO 


使 用 gpscp 将 文件 scp 到 每 一 台 机 器 的 Greenplum 的 安装 目录 下 : 


gpscp -f ~/hostlist tablefunc.so -:9$GPHOME/lib/postgresql/ 


运行 psql 进 行 安装 : 


psql -f tablefunc.sql 


如 果 需 要 逢 载 ， 则 运行 uninstall_ tablefunc.sql。 


Tablefunc 的 “使 用 帮助 ”按钮 可 以 参考 README.tablefunc，Tablefunc 中 的 几 个 函数 。 下 面 简单 检验 下 normal_rand 函 数 (生成 正 态 分 布 的 随机 数 函 数 ) 是 否 安装 成 功 。 


testDB-4 SELECT * FROM normal rand(5, 5, 3); 
normal rand i 
9.84995374805584 

-0.299470922745508 
10.9453286308036 
6.20799777320577 
8.31545906031287 

(5 rows) 


11.2 ”局 动 和 关闭 脚本 gpstart 和 gpstop 


在 Greenplum 的 脚本 中 ， 启 动 和 关闭 数据 库 脚本 gpstart 和 gpstop， 是 最 常用 的 。 
1.gpstart 
gpstart 脚 本 参数 如 表 11-1 所 示 。 


表 11-1 gpstart 脚 本 参数 


2 数 党 明 
-a 不 提示 用 户 确 认 
-B 多 少 个 并 行 ， 默 认 是 64 个 并 行 ， SIRET Segment 的 个 数 
-d Master 的 数据 目录 ， 默 认 旗 取 环 境 变 量 $MASTER DATA DIRECTORY 
-] 日 志 目 录 ， 默 认 是 ~/gpAdminLog 
-m 使 用 utility 模式 只 启动 Master，Segment 不 会 启动 ， 单 独 连 接 Master 使 用 PGOPTIONS='-c gp 
session role-utility' psql 
-q RRI, MERRE IENA S 
-R 限制 模式 ， 在 局 动 数据 库 后 ， 除 了 超级 用 户 之 外 ， 其 他 用 户 不 允许 连接 


-t | --timeout 使 用 多 少时 间 ( 秒 ) 等 待 一 个 Segment 启动 ， 如 果 超 过 这 个 时 间 ， 则 自动 将 这 个 Segment 的 


PostgreSQL 进程 杀 掉 ， 默 认 是 60s, 但 是 如 果 Segment 启动 的 时 候 是 Recovery 模式 ， 则 可 能 需要 更 
长 的 时 间 


-V 相当 于 debug 模式 ， 打 印 出 详细 的 启动 信息 
不 启动 master standy， 默 认 局 动 

-? | -h | --help | 帮助 

--version 版 本 信息 

示例 : 

- UB Sbmaster: 

pE 


- 正常 启动 数据 库 ， 不 提示 确认 信息 ， 同 时 不 启动 mastef standy: 


gpstart -a -y 


通过 脚本 解读 可 知 ， 正 常 的 启动 流程 如 下 。 
1) 获取 环境 变量 ， 如 GPHOME、 MASTER_DATA_DIRECTORY 等 信息 。 
2) 检查 Greenplum 的 版 本 ， 如 果 gpstart 脚 本 的 版 本 与 数据 目录 的 Greenplum 版 本 不 一 致 ， 则 报错 退出 。 


3) 通过 Master 的 postgresql.conf 配 置 文件 ， 获 取 端 口 等 信息 ， 并 通过 这 个 端口 检查 Master 是 否 已 经 启动 ， 主 要 检查 “/tmp/.s.PGSQL. 端 口号 ”这 个 文件 ， 还 要 通过 netstat 检 查 端口 是 否 人 存在， 如 果 
Master 正 常 运行 ， 则 报错 退出 。 如 果 Master 端 口 已 经 停止 但 仍 有 残留 文件 ， 那 么 删除 相关 文件 ， 启 动 Master 并 停止 。 


4) 通过 utility 模 式 启动 Master， 然 后 通过 gp_segment_configuration 表 获取 Segment 和 Standy Master 的 信息 ， 检 查 子 节点 是 否 有 被 标记 为 Down 的 情况 。 


5) 停止 Master， 并 启动 Standy Master (如 果 有 ) 。 


6) 通过 ping 命 令 检查 每 个 egment 所 在 机 器 的 网 络 连 接 是 否 正常 ， 然 后 并 行 启动 segment 进程 (启动 Segment 通过 ssh 命 令 ， 调 用 $GPHOME/sbin/gpsegstart.py 命 令 启动 ， 启 动 的 环境 变量 跟 
Master 一 致 ) ， 并 行 度 可 以 设置 ， 默 认 是 64 个 并 发 。 


7) 检查 Segment 启动 情况 ， 确 定 是 否 满足 集群 启动 条 件 (所 有 的 主 备 Segment 至 少 有 一 个 可 以 启动 ) ， 如 果 有 一 个 segment 的 主 备 无 法 启动 ， 则 所 有 的 segment 都 会 被 停止 ， 然 后 报错 退出 。 


8) 前 面 步骤 都 正常 则 开始 启动 Master， 检 查 Master 的 运行 状态 (pg ctl status 获 取 状 态 信 息 ， 同 时 党 试 连接 Master 并 释放 ) (注意 ， 如 果 GP 由 于 异常 关闭 ， 进 入 recovery 模 式 ， 则 连接 Master 消 耗 
时 间 会 长 一 些 ) 。 


9) Greenplum 启 动 成 功 。 
2.gpstop 
gpstop 脚 本 参数 说 明 如 表 11-2 所 示 。 


表 11-2 ”gpstop 脚 本 参数 


参 效 Ui Hj] 
-a/-B/-d/-l/-q/-t E] gpstart 脚本 参数 
-M fast 快速 停止 数据 库 ， 中 止 当 前 有 所 有 事务 并 回 深 ， 相 当 于 pg ctl -m fast stop 
(ZÈ) 
2 Zi 说 明 
-M immediate 立刻 停止 数据 库 ， 杀 挥 上 所 有 的 进程 中止 折 有 事务 ,但 不 会 回 演 ， 不 建议 使 用 。 相 当 于 
pg ctl -m immediate stop 
-M smart SA FIERE. MWERA ARAE SQL, REHMA SQL 在 执行 ， 就 会 
报警 退出 
-u 不 重启 数据 库 ， 只 是 重新 加 载 pg hba.conf 和 postgresql.conf 配置 文件 ， 对 不 需要 重启 数据 
库 的 参数 有 效 
pi 不 停止 master standy 
示例 : 
. 重启 数据 库 ; 


“ 停止 master standy: 


gpstop -m 


- 快速 停止 master: 


gpstop -M fast -a 


或 者 


gpstop -af 
- 重新 加 载 配置 : 


gpstop -u 


关闭 数据 库 的 流程 基本 跟 启 动 数据 库 的 流程 一 致 ， 这 里 简单 描述 一 下 。 


1) 前 面 还 是 一 样 的 检查 环境 变量 ， 数 据 库 版 本 等 。 


xo 


2 


— 


在 Master 获 取 Segment 人 信息， 然后 单独 停止 Master。 


3 


— 


停止 Standy Master, 
4) 同样 检查 网 络 是 否 正常 ， 然 后 并 行 通过 $GPHOME/sbin/gpsegstop.py 脚 本 停止 所 有 的 Segment， 先 停止 Primary Segment， 再 停止 Mirror Segment, 


5) 停止 数据 库 成 功 ， 并 打印 出 简单 的 报告 。 


1 


— 


3 ”初始 化 系统 脚本 gpinitsystem 


系统 初始 化 脚本 gpinitsystem 与 其 他 脚本 不 一 样 ， 这 个 脚本 是 用 shell 写 的 。 下 面 讲解 其 使 用 方法 及 初始 化 系统 所 必需 的 步骤 。 


使 用 gpinitsystem 的 语法 如 下 : 


gpinitsystem -c «gpinitsystem | config» 

[-h «hostfile gpinitsystem»] [-m] 
[-B «parallel processes?] 
[-p «postgresql conf param file>] 
[-s «standby master host»] 
[--max | connections- «number»] [--shared buffers-«size»] 
[--locale-«locale»] [--lc-collate-«locale»] 
[--lc-ctype-«locale»?] [--lc-messages- =<locale>] 
[--lc-monetary=<locale>] [--1c-numeric-«locale»] 
[--lc-time=<locale>] [--su | password-«password»] 
[-S] [-a] [-q] [-1 «logfile directory?»] [-D] 


Gpinitsystem 脚 本 每 个 参数 的 含义 如 表 11-3 所 示 。 


表 11-3 gpinitsystem 脚 本 参数 


参 Zi pi HH 

-a Hiki, Am a hez HHA TA 

-B WIE IRECHJAPARBE,. MAEA, WRR Segment LRE, ENANAR 

-C 初始 化 系统 的 配置 文件 

-h 保存 Segment Hostname 的 配置 文件 

-S Master Standy 的 机 天 名 

-m 只 创建 Master 市 点 

-su password- |-e | 超级 用 户 (gpadmin) 的 初始 化 黎 但 

-P 如 果 需 要 事前 配置 好 postgres.conf 文件 ， 可 以 在 这 里 指定 。 这 样 在 初始 化 的 时 候 ， 
指定 这 个 配置 文件 为 初始 化 数据 库 

-q AEFT ENERE 

-S 将 mirror 打 散 在 多 台 机 大 上 ， ee RAET 如 果 机 各 L 上 有 4 个 主 节 点 ， 那 : 
备 结 点 会 全 部 在 机 名 2 上 。 加 了 这 个 参数 ，4 个 备 结 点 就 会 分 别 放 在 机 器 2、3、4、5 

其 他 语法 中 列举 了 很 多 修改 系统 的 默认 人 参数， 可 以 在 postgres.conf 中 配置 


下 面 简单 描述 下 执行 gpinitsystem 脚 本 的 步骤 。 

1) 读 取 配 置信 息 ， 检 查 所 有 机 器 上 的 端口 是 否 被 占用 ， 数 据 目 录 是 否 存在 等 ， 并 且 初 始 化 系统 的 配置 信息 
2) 调用 initdb 命 令 创建 Master 数 据 库 。 

3) 使 用 utility 模 式 启动 Master， 修 改 postgresq.conf 文 件 ， 更 新 响应 的 配置 信息 。 

4) 在 Master 上 初始 化 集群 配置 信息 表 ， 如 gp_segment configuration, gp filespace_entry 等 。 

5) 并 行 创建 Primary Segment， 之 后 并 行 创建 Mirror Segment (也 是 使 用 initdb 命 令 ) 。 

6) 初始 化 Standy Master。 

7) 停止 Master 并 启动 数据 库 。 

8) 安装 gp_toolkit 工 具 箱 


9) 修改 超级 用 户 密码 (用 户 名 默认 是 操作 系统 用 户 名 )。 


11.4 ”集群 操作 脚本 gpssh 和 和 gpscp 


对 于 Greenplum 这 种 分 布 式 的 系统 ， 经 常 需要 对 每 台 机 器 进行 一 样 的 操作 ， 为 此 ，Greenplum 为 使 用 者 提供 了 gpssh 和 gpscp 脚 本 来 方便 同时 操作 多 人 台 机 器 。 
使 用 gpssh 和 gpscp 之 前 ， 需 要 使 用 gpssh-exkeys 将 每 一 台 机 器 都 打通 ， 相 关内 容 在 第 2 章 入 门 的 时 候 已 经 讲 过 了 ， 这 里 不 再 重复 。 

下 面 讲解 这 两 个 脚本 的 参数 及 使 用 。 

1.gpssh 

gpssh 脚 本 参数 的 含义 如 表 11-4 所 示 。 


表 11-4 gpssh 脚 本 参数 


么 它 的 4 个 


-e 结果 显示 执行 的 命令 


-E Hostname 的 配置 文件 
-h gpssh 文 持 单 台 机 各 的 操作 ， 使 用 这 个 命令 指定 host 
«bash command-^ gpssh 后 面 可 以 直接 跟 执行 的 命令 


示例 : 


- 在 当前 机 器 上 执行 : 


$ gpssh -h localhost -e pwd 
[localhost] pwd 
[localhost] /home/gpadmin 


C 在 所 有 机 器 上 执行 : 


$ gpssh -f hostlist pwd 
10.20.151.10] /home/gpadmin 


[ 

[ 10.20.151.7] /home/gpadmin 

[ 10.20.151.8] /home/gpadmin 

[ 10.20.151.9] /home/gpadmin 

Qua 要 使 用 这 个 脚本 的 上 下 方向 键 翻 查 命令 功能 ， 必 须 先 安装 Python 的 teadline 模 块 (Greenplum á ^ ) ， 在 gpssh 中 执行 会 被 保存 在 ~/.gshist 这 个 文件 中 。 特 别 注 意 ，gpssh 不 能 处 理 需 要 交互 


的 命令 ， 如 果 运 行 了 带 交 互 式 的 命令 ， 窗 口 就 会 停止 响应 。 


2.gpscp 


gpscp 的 功能 是 将 文件 复制 到 每 一 台 机 器 上 ， 例 如 : 


gpscp -f hostfile gpssh .bashrc -:/home/gpadmin 


以 上 代码 是 将 .bashrc 复 制 到 每 一 台 在 hostlist 中 的 机 器 中 。 注 意 ，= : 与 后 面 连接 的 目录 之 间 没有 空格 。 


Qum gpscp 这 个 脚本 只 能 scp 文 件 ， 不 能 scp 目 录 。 


11.5 “数据库 状态 检查 脚本 gpstate 


脚本 gpstate 是 用 来 显示 正在 运行 的 Greenplum 实 例 的 运行 状态 。Greenplum 由 多 个 PostgreSQL 数 据 库 组 成 ， 通 过 gpstate 可 以 观察 到 每 个 数据 库 运 行 的 状态 ， 例 如 : 
1) 哪些 数据 库 失败 了 。 

2) Master 和 Segment 的 配置 信息 。 

3) 数据 库 使 用 的 端口 。 

4) 主 segment 和 备 Segment 的 对 应 关系 。 

5) 在 Gprecovery 恢 复 后 ， 数 据 的 恢复 进度 。 


使 用 gpstate 脚 本 的 语法 : 


gpstate [-d «master data directory»] [-B «parallel Processes>] 
[=s | eb p eg =e] [an] p peel per [=f] 
[-v | -q] [-1 «log directory?] 


gpstate 的 参数 如 表 11-5 所 示 。 


表 11-5 gpstate 的 参数 列表 


2 M pU 明 
-b 显示 Greenplum 简要 的 运行 状态 信息 
-B 并 行 度 ， 与 前 面 的 脚本 参数 一 样 ， 默 认 是 60 
-C 显示 主 Segment 与 备 Siaa 的 对 应 关系 
-d Master 的 数据 目录 ， 上 默认 是 读 取 环境 变量 $MASTER DATA DIRECTORY 
-e 显示 主 备 同步 有 问题 的 节点 的 详细 信息 
一 般 的 问题 有 : 
) 有 一 个 Segment 在 更 改 跟踪 模式 (change tracking mode) 下 运行 ， 说 明 有 一 个 节点 失败 了 
2) 有 一 个 Segment 在 重新 同步 模式 (resynchronization mode) 下 运行 ， 说 明 有 主 备 正 在 同步 
3 ) Segment 的 角色 与 默认 角色 不 一 样 ， 说 明 主 备 节 点 切换 了 ， 有 些 机 需 上 的 负载 不 均衡 了 ， 需 要 重 
新 做 负载 均衡 
-f 显示 Master Standy 的 详细 信息 
-i 显示 所 有 Segment 数据 库 的 版 本 
-m 列 出 所 有 的 备 Segment 节点 
-p tnb zs P T es dh HRS SR ET 
(2) 
参 效 说 明 
-Q 快速 检测 ， 只 检测 在 Master 上 的 系统 字典 上 的 信息 ， 不 去 收集 Segment 的 信息 
-5 获取 整个 数据 库 的 详细 信息 
-V Debug 模式 ， 打 印 出 运行 的 详细 信息 


下 面 通过 脚本 的 解读 来 介绍 gpstate 从 哪里 获取 信息 ， 让 读者 对 Greenplum 的 运作 有 一 个 比较 深入 的 了 解 。 
- 获取 节点 的 信息 : gpstate-m 或 gpstate-c 或 gpstate-Q 或 gpstate-p。 

以 上 的 命令 都 是 查询 Master 的 gp_segment_configuration 获 取信 息 。 
- 获取 数据 库 的 总 体 信息 : gpstate-s 或 gpstate-e 或 gpstate-b。 


以 上 的 这 几 个 命令 ， 除 了 查询 表 gp_segment_ configuration ， 还 要 在 每 个 segment 上 运行 4$GPHOME/sbin/gpgetstatususingtransition.py 脚 本 收集 每 个 egment 实 例 的 进程 信息 和 端口 信息 ， 这 个 
脚本 主要 用 于 判断 进程 是 否 运行 正常 (通过 检查 文件 及 端口 的 方式 ) 。 还 有 这 个 脚本 会 运行 9p_primarymirror 命 令 ， 获 取 Segment 的 主 备 同步 信息 等 ， 如 : 


$ echo "getMirrorStatus" | $GPHOME/bin/gp primarymirror -h sdw2 -p 33001 
Success: mode:PrimarySegment 

segmentState:Ready 

dataState:InSync 

faultType:NotInitialized 

databaseStatus:Up 

postmasterState:run 

isFullResync:0O 
resyncNumCompleted:0 
resyncTotalToComplete:0 
changeTrackingBytesUsed:105528264 
estimatedCompletionTimeSecondsSinceEpoch:0 


- 获取 每 个 子 节点 的 版 本 信息 : gpstate-i。 


还 是 调用 gpgetstatususingtransition.py 脚 本 ， 在 这 个 脚本 中 也 调用 gp_primarymirror， 不 过 获取 的 内 容 不 一 样 ， 这 里 获取 的 是 版 本 信息 ， 命 令 如 下 : 


echo getVersion | $GPHOME/bin/gp primarymirror -h 127.0.0.1 -p 33001 
Success:PostgreSQL 8.2.15 (Greenplum Database 4.1.1.1 build 1) on x86 64-unknown-linux-gnu, compiled by GCC gcc (GCC) 4.4.2 compiled on May 12 2011 18:07:08 


这 个 信息 与 执行 select version); 的 结果 是 一 样 的 。 


11.6 ”数据库 升级 脚本 gpmigrate 
在 Greenplum 的 版 本 升级 中 ， 如 果 数 据 库 版 本 升级 的 变化 较 小 ， 方 法 很 简单 ， 只 需要 在 停止 数据 库 后 使 用 新 版 本 的 程序 启动 数据 库 即 可 ， 而 且 这 个 升级 过 程 是 可 以 回 滚 的 ， 只 需要 将 使 用 老 版 本 的 程序 
重启 数据 库 即 可 (如 从 4.1.1 升 级 到 4.1.8) 。 如 果 数 据 库 版 本 变化 比较 大 ， 比 如 修改 了 数据 字段 ， 增 加 了 一 些 视 图 或 函数 功能 ， 就 需要 使 用 gpmigrate 脚 本 来 升级 数据 库 。 


在 数据 库 版 本 中 ， 差 异 最 大 的 应 该 是 Greenplum 3.3.x 到 Greenplum 4.0， 而 且 从 Greenplum 3.3.x 升 级 到 4.1， 必 须 先 升 级 到 Greenplum 4.0， 然 后 再 从 4.0 升 级 到 4.1。 为 什么 说 3.3.x 到 4.0 的 差异 最 大 
呢 ， 这 个 版 本 升级 过 程 到 底 改变 了 哪些 ? 


.Segment 节点 的 备份 策略 修改 ，3.3.x 是 逻辑 上 的 主 备 同 步 ， 而 4.0 将 数据 库 改 成 基于 文件 的 同步 ， 而 且 支 持 增 量 同 步 。 


: Greenplum 4.0 在 3.3.x 上 修改 了 很 多 数据 字典 ， 包 括 增加 字段 、 新 增 表 。 


- 增加 了 gp_toolkit 工 具 包 。 


Qum ” 远 辑 上 的 同步 意 


味 着 ， 


OU 


之 后 主 备 Segment 之 间 数 据 将 不 再 同步 


PA 
Greenplum 4.0 是 基于 文件 同步 的 ， 如 果 有 一 个 Segment 停 止 ， 系 统 还 能 够 正常 运行 ， 下 次 恢复 的 时 候 比 对 主 备 之 间 的 数据 文件 就 可 以 恢复 响应 的 数据 。 


其 中 最 大 的 变化 就 是 备份 策略 的 修改 。 下 面 将 解读 gpmigrate 升 级 脚本 ， 让 读者 对 升级 的 步骤 有 更 加 清晰 的 了 解 。 其 他 版 本 之 间 的 升级 ， 方 法 不 外 乎 如 此 。 


首先 简单 介绍 下 升级 的 必 备 条 件 。 


1) 保证 登录 到 gpmaster 节 点 ， 并 且 是 gp superuser (gpadmin) 。 


2) 在 所 有 Greenplum 节 点 上 安装 Greenplum 4.0 的 bin 文 件 。 


3) 把 用 户 自 定义 的 模块 〈 如 一 些 函 


数 、 包 等 ) 复制 到 Greenplum 4.0 的 相应 目录 下 。 


4) 把 一 些 额 外 增加 的 文件 或 文件 夹 复制 或 保存 ， 因 为 只 有 Greenplum 需 要 的 文件 才 会 被 gpmigrator 这 个 命令 保存 。 


5) 在 所 有 的 数据 库 中 运行 vacuum， 并 且 删 除 所 有 的 日 志文 件 ， 这 是 非 必需 的 ， 只 是 为 了 节省 空间 。 


6) 如 果 存 在 gp_jetpack 的 schema， 将 其 删除 ， 不 要 在 系统 中 用 pg 或 gp 前缀 的 schema， 如 果 存 在 ， 将 其 重 命 


7) 在 Greenplum 3.x 版 本 中 建 表 (分 区 表 、 列 存储 ) 时 ， 如 果 使 用 了 OIDS=TRUE， 将 其 修改 为 DIDS=FALSE， 因 为 前 者 在 Greenplum4.0 中 不 会 被 支持 。 


8) 使 用 gpcheckcat 命 令 检验 系统 目录 的 完整 性 。 


9) 备份 原 有 的 数据 (gpcondump 或 ZFs 快 照 ) 。 


10) 删除 master stand 


11) 关闭 现 有 系统 (gpstop) 。 


y 节 点 (gpinitstandby-r) 。 


12) 把 环境 升级 为 Greenplum 4.0， 修 改 ~/.bash_profile。 


13) 通知 所 有 数据 库 用 户 升级 过 程 中 数据 库 不 可 用 。 


面 介 绍 具体 的 升级 步骤 。 


1) 获取 系统 环境 变量 参数 并 解析 传 入 参数 。 


2) 检查 参数 配置 是 否 合理 (从 postgresql.conf 获 取 一 些 参数 ) 。 


忆 注 意 ” 接 下 来 进入 正式 的 升级 步 又 (第 


一 阶段 ) ， 下 面 所 有 的 Segment 都 是 指 Ptimaty Segmento 


3) 检查 版 本 是 否 可 升级 (有 些 版 本 之 间 不 能 跳级 ， 比 如 Greenplum 3.3.x 不 能 直接 升级 到 4.1) 。 


4) 检查 gpmigrator/state 文 件 (这 个 文件 会 记录 上 次 升级 到 哪个 阶段 }) ， 判 断 以 前 是 否 运 行 过 gpmigrator， 如 果 运 行 过 ， 则 分 两 种 情况 处 理 。 


如果 是 BACKEUP_VALID '， 


:如果 是 'NEWDB_VALID'， 


会 回 滚 数据 。 


会 继续 升级 步骤 。 


5) 从 旧 的 Greenplum 中 获取 我 们 所 需要 的 全 部 信息 : segment 信息、 数据 库 信 息 、 各 节点 是 否 可 连接 等 。 


6) 创建 升级 用 户 gpmigrator。 


7) 检查 是 否 有 Greenplum 4.0 不 支持 的 索引 类 型 (hash、gin 索 引 ) ， 检 查 旧 数据 库 的 字符 集 在 Greenplum 4.0 版 本 中 是 否 不 再 支持 ， 如 果 有 ， 则 退出 ， 不 能 升级 。 


8) 在 每 个 segment (包括 Master) 的 数据 目录 下 创建 upgrade 和 backup 文 件 夹 ， 用 于 存放 升级 过 程 中 的 临时 文件 。 


9) 对 每 个 数据 库 执行 9gpcheckcat 命 令 ， 检 查 数据 库 的 数据 字典 一 致 性 ， 如 果 发 生 不 一 致 且 无 法 修复 ， 则 报错 退出 ， 执 行 命令 如 下 : 


SGPHOME/bin/lib//gpcheckcat -p port -U gpadmin -B 16 dbname 


10) 修改 pg_hba.conf 文 件 ， 除 了 gpmigrator 用 户 ， 其 他 用 户 不 能 连接 (此 过 程 会 备份 pg_hba.conf 和 pg_ident.conf 文 件 ) 。 


11) 检查 是 否 有 其 他 连接 或 SQL 正 在 运行 ， 


有 则 重启 Greenplum。 


12) 创建 保存 配置 信息 的 文件 ， 在 之 后 的 脚本 中 会 使 用 到 这 些 文件 。 


: gp databases: 写 入 数据 库 的 oid 和 name。 


: gp atray config: 写 入 gpatray 类 中 的 信息 。 


- gp config: 写 入 在 selfExttactInfo0 中 的 config 数 组 信息 。 


13) 从 数据 字典 和 数据 目录 中 获取 信息 ， 


生成 骨骼 (源码 注释 中 写 的 是 skeleton system) 


- 在 每 个 数据 库 中 都 执行 下 面 这 个 SQL， 将 结果 写 入 mapfile (命名 为 Segment 标 号 +_catfiles) o 


cl.relname as 
c2.relname as 
c3.relname as 
FROM pg | class c1 
eft outer join 


SELECT d.oid as datoid, 
re] 


1, cl.relfil 


re] 


L- 


2, c2.relf 


rel 


Pg 


namespace n 


on (cl.re namespace — n.oid) 
left outer join pg class c2 
on (cl.reltoastrelid = c2.oid) 


left outer join pg class c3 


enode as nodel, 


lenode as node2, 
3, G3. relfil 


enode as node3 


on (c2.reltoastidxid = c3.oid), 
pg database d 
WHERE d.datname = 'dbname' and 


(nspname = 'pg catalog' or 
nspname — 'information schema') and 
cl.relkind in ('r', 'i') and 


not cl.relisshared; 


` 将 一 些 数据 目录 文件 名 字 也 写 到 该 外 部 文件 mapfile 中 。 

14) 生成 几 个 SQL 文件 ， 在 后 续 会 使 用 。 

:aoseg_template0_tewtite.sdl， 用 于 写 入 vacuum freeze; 

- persistent_master.sql, M F Aselect gp. persistent build db (false) ; 

:betsistent_segment,sql， 用 于 写 入 select gp persistent build db (true) ; 
这 里 提示 一 下 ， 有 Mirror segment 的 时 候 参 数 为 true， 否 则 为 false。 
15) 关闭 数据 库 。 


16) 使 用 pg_controldata 在 每 个 主 segment 上 运行 ， 获 取 下 一 个 OID 的 值 : 


pg controldata “'segment 的 数据 目录 ' | grep Latest checkpoint's NextOID 


17) 开始 创建 upgrade 文 件 夹 内 容 (在 Step 8 中 已 经 创建 了 目录 ) ， 并 且 开 始 复制 数据 (在 每 个 egment 和 Master 上 ) ， 同 时 修改 配置 文件 ， 配 置 文件 格式 在 Greenplum 4.0 版 本 中 有 所 调整 。 
18) 运行 pg_resetxlog， 设 置 highest oid 为 在 Step 16 中 获取 到 的 值 。 

19) 通过 新 版 本 的 bin/lib/gpmodcatversion 脚 本 修改 数据 库 版 本 信息 。 

20) 使 用 单 用 户 模式 启动 每 个 egment， 然 后 开始 修改 数据 字典 。 


在 $h$GPHOME/share/postgresql/upgrade 中 保存 着 upg2_conversion32.sql.in 等 升级 文件 。 使 用 单 用 户 模式 启动 Segment 的 命令 如 下 : 


postgres --single -0 -c gp session role-utility -c gp before persistence work-true -c exit on error-true -E -D /gpdata/gp3.3/gpmaster/gpmigrator/upgrade/gp-1 templatel 


21) 在 Master 上 修改 pg filespace_entry 并 初始 化 gp segment _ configuration 配 置 表 ， 将 pg filespace_entry 中 的 数据 路 径 指 向 upgrade 目 录 。 
至 此 ， 大 部 分 的 升级 操作 已 经 完成 ， 接 下 来 就 是 升级 Mirror 和 安装 gp_toolkit， 以 及 后 续 收 尾 操作 。 


22) 重建 Mirror Segmen。 这 人 一步 在 每 个 Primary Segment 上 都 要 执行 ， 主 要 是 调用 $GPHOME/sbin/gpupgrademirror.py 这 个 脚本 。 这 个 脚本 也 挺 复杂 的 ， 有 几 千 行 代码 ， 主 要 的 思想 就 是 删除 老 


的 数据 文件 ， 然 后 从 Primary Segment 中 复制 文件 到 Mirror 中 。 有 兴趣 的 读者 可 以 去 详细 分 析 下 相关 代码 ， 篇 幅 问题 ， 这 里 就 不 详细 描述 了 。 


23) 在 每 个 Segment 上 生成 gp_dbid 这 个 文件 。 

24) 至 此 ， 升 级 好 的 数据 文件 就 在 upgrade 目 录 中 了 ， 这 时 需要 开始 还 原 这 个 目录 。 
- 创建 DATA_DIR/upgrade 一 DATA_DIR/backup 的 硬 连 接 。 

- 创建 DATA_DIR/upgrade>DATA_DIR 的 硬 连 接 。 

25) 还 原 pg_filespace_entry 的 数据 目录 配置 。 

26) 用 Greenplum 4.0 的 环境 启动 数据 库 。 

27) 使 用 share/postgresql/gp_toolkit.sql 文 件 在 数据 库 中 创建 gp_toolkit 工 具 箱 。 
28) 删除 gpmigrator 用 户 ， 升 级 结束 。 

升级 注意 事项 : 


1) 在 升级 过 程 中 需要 备份 文件 ， 因 此 需要 大 量 的 空间 ， 如 果 此 时 本 身 数 据 库 空间 就 快 满 了 ， 那 么 升级 必 将 失败 ， 而 且 数 据 量 大 ， 复 制 文件 的 过 程 将 十 分 缓慢 。 如 果 文 件 系统 本 身 有 备份 (比如 ZFS 中 有 


快照 功能 ) ， 建 议 修改 gpmigrator 将 复制 文件 这 步 去 掉 。 


2) 检查 数据 字典 的 一 致 性 gpcheckcat 脚 本 要 检查 的 内 容 很 多 ， 如 果 数 据 库 中 数据 文件 很 多 或 数据 字典 比较 大 ， 执 行 gpcheckcat 脚 本 会 很 慢 ， 如 果 系 统 运 行 时 间 比较 长 ， 建 议 将 这 个 脚本 单独 取出 来 


做 ， 将 升级 时 间 平 推 ， 数 据 字 典 不 一 致 的 现象 还 是 很 容易 发 生 的 ， 或 无 法 修复 ， 这 些 问题 都 会 导致 升级 失败 。 

3) 在 升级 过 程 中 ， 步 又 非常 多 ， 涉 及 的 环境 也 非常 复杂 ， 很 容易 出 错 ， 因 此 在 升级 前 必须 对 脚本 有 足够 的 了 解 ， 以 减少 风险 ， 同 时 ， 在 升级 前 必须 做 充分 的 测试 (建议 复制 两 个 Segment 进 行 升级 测 
m). 

4) 升级 过 程 可 能 需要 停机 ， 这 将 会 对 业务 有 比较 大 的 影响 ， 因 此 要 做 好 充足 的 准备 ， 以 防 升级 失败 导致 回 滚 。 

5) 升级 Mirror 其 实 都 是 从 Primary 向 Mirror 复 制 数据 ， 在 实际 升级 过 程 中 ， 可 以 将 Mirror 去 掉 ， 在 Primary 升 级 成 功 后 ， 再 使 用 gpaddmirrors 脚 本 初始 化 Mirror。 

6) Greenplum4.0 相 对 于 3.3.x 在 执行 计划 上 有 很 多 的 优化 ， 升 级 后 少 部 分 语句 会 发 生 执 行 计划 出 错 ， 导 致 执行 缓慢， 这 一 点 在 升级 过 后 要 特别 注意 。 

7) 版 本 变化 越 大 ， 升 级 风险 越 高 ， 必 须 非常 谨慎 。 

图 注意 “在 此 强调 ， 上 述 讲解 的 是 从 Greenplum3.3x 到 Greenplum4.0 的 升级 步骤， 其 他 的 版 本 之 间 的 升级 相对 比较 简单 ， 读 者 可 自行 阅读 相应 的 升级 脚本 ， 深 入 了 解 每 个 版 本 之 间 的 差异 。 
11.7 “参数 修改 脚本 gpconfig 


在 Greenplum 中 ， 有 些 参数 在 Ma 
和 查看 Greenplum 中 参数 的 设置 ， 从 而 很 方便 地 修改 segment 的 postgresdl.conf 配 置 文件 中 的 内 容 ， 比 如 端口 、 最 大 连接 数 等 。 


ster 上 修改 就 可 以 了 ， 有 些 参 


数 的 每 个 Segment 都 要 修改 ， 如 果 Segment 比 较 多 ， 手 动 修改 会 非常 麻烦 。Greenplum 4.x 提 供 了 这 样 的 脚本 一 一 gpconfig， 可 以 修改 


gpconfig 的 用 法 如 下 : 
gpconfig -c «param name» -v «value» [-m «master value» | --masteronly] 
| -r «param name» [--masteronly] 
| =1 
[--skipvalidation] [--verbose] [--debug] 
gpconfig -s «param name» [--verbose] [--debug] 


gpconfig --help 


gpconfig 也 和 其 他 脚本 一 样 ， 通 过 以 下 几 个 环境 变量 去 连接 数据 库 : 


PGHOST PGPORT PGUSER PGPASSWORD PGDATABASE 


表 11-6 是 gpconfig 脚 本 中 每 个 参数 的 含义 。 


Á* 


Z 


NS 


-c | --change 


-v | --value 


-m | --mastervalue 


--skipvalidation 


示例 : 


表 11-6 gpconfig 脚 本 参数 


说 PH 


要 修改 的 参数 名 


要 修改 的 参数 值 ，Master 上 的 值 与 Segment 上 的 值 不 一 样 ，-v 表示 Segment Ej 


-m 表示 Master 
删除 一 个 参数 ， 


列 出 所 有 可 以 通 :; 


数值 


WA 
pii 


上 的 参数 值 ， 这 个 参数 必须 与 -v 一 起 使 用 
后 面 跟着 参数 名 
寸 gpconfig 修改 的 参数 列表 


显示 当前 Master 和 Segment 上 的 参数 全 
Wi gpconfig 允许 的 参数 列表 的 检查 ， 即 不 在 gpconfig -1 列表 中 的 参数 都 可 以 设置 ， 不 管 这 
个 参数 能 否 被 数据 库 识 别 


- JX&-Masterá] work memr& X120MB: 


gpconfig -c work mem -v 120MB -masteronly 


- 4& Master. E. Jfmax connections 4? Z& 310, ZESegment. E jX # X100: 


gpconfig -c max connections -v 100 -m 10 


M) default statistics. target Až : 


gpconfig -r default statistics target 
. 查看 所 有 数据 库 实例 的 参数 : 

$ gpconfig -s port 

GUC : port 

Context Value: 33000 

Context Value: 33001 

Context Value: 33000 

Context 1 Value: 33001 

Context Value: 33001 

Context Value: 33000 

Context: -] Value: 2345 

$ gpconfig -s max connections 

Values on all segments are consistent 

GUC : max connections 

Master value: 25 

Segment value: 125 

11.8 数据库 一 致 性 检查 脚本 gpcheckcat 


前 面 介 绍 过 : 
命令 如 下 : 


在 升级 脚本 的 过 程 中 会 调用 gpcheckcat 这 个 脚本 ， 检 查 数据 库 数 据 字 典 的 一 致 性 ， 并 且 进 行 一 些 数据 字典 修复 ， 这 里 将 简单 介绍 几 个 数据 字典 一 致 性 的 检查 问题 。 运 行 gpcheckcat 脚 本 


SGPHOME/bin/lib/gpcheckcat  -v 


(1) 随机 分 布 类 型 表 上 不 能 有 主键 或 唯一 性 约束 


有 唯一 性 需求 的 字段 必须 是 


分 布 键 才 


能 保证 唯一 性 ， 如 果 数 据 字 典 中 随机 分 布 类 型 表 带 有 唯一 性 约束 ， 则 数据 字典 就 不 一 致 了 。 检 查 “ 随 机 分 布 类 型 且 有 唯一 性 约束 的 表 ” 的 SQL 如 下 : 


select n.nspname, rel.relname, pk.conname as constraint 


from | pg constraint pk 


join pg class rel on (pk.con 
join pg namespace n on (rel. 


join gp distribution policy d on 


where pk.contype in('p', 'u!) 


relid = rel.oid) 
relnamespace - n.oid) 


and d.attrnums is null 


(rel.oid = d.localoid) 


(2) 找 出 没有 字段 信息 的 表 


这 个 SQL 比较 简单 ， 只 需要 与 pg_class 进 行 左 连接 ， 找 出 pg_class 中 出 现 但 pg _attribute 中 没有 出 现 的 表 : 


SELECT relname, relkind, tc.oid as oid, 
reltoastrelid, reltoastidxid 

FROM pg class tc left outer join 

pg attribute ta on (tc.oid = ta.attrelid) 
WHERE  ta.attrelid is NULL 


类 似 的 ， 可 以 检查 其 他 表 的 外 键 关系 的 表 中 信息 是 否 一 致 。 


(3) 检查 | 临时 Schema 是 否 忘 记 回 收 


MY PA 


I 会话 


在 Greenplum 运 行 过 程 中 可 能 会 建 
结束 后 就 会 被 删除 掉 。 通 过 下 


"pg temp 数字 ”， 后 面 的 数字 就 是 对 应 pg_stat_activity 表 中 的 会 话 ID-sess id) 


ELECT distinct nspname as schema 

ROM ( 

SELECT nspname, replace (nspname, 'pg temp ','')::int as sess id 
FROM gp dist random('pg namespace ' ) 

WHERE nspname ~ '^pg temp [0-9]-*' 

) n LEFT OUTER JOIN pg stat activity x using (sess id) 
WHERE x.sess id is null . i 
UNION 
SELECT nspname as schema 

FROM ( 

SELECT nspname, replace (nspname, 'pg temp ','')::int as sess id 
FROM pg namespace 

WHERE nspname ~ '^pg temp [0-9]-*' 

) n LEFT OUTER JOIN pg stat activity x using (sess id) 

WHERE x.sess id is null . i 


tr] ca 


(4) 检查 Master 与 Segment 表 的 Owner 不 一 致 的 问题 


select distinct n.nspname, coalesce(o.relname, c.relname) as relname, 
a.rolname, m.rolname as master rolname 
from gp dist random('pg class') r 
join pg class c on (c.oid = r.oid) 
left join pg appendonly ao on (c.oid 


ao.segrelid or 


C.Oid = ao.segidxid or 
Cc.oid = ao.blkdirrelid or 
C.Oid = ao.blkdiridxid) 


left join pg class t on (t.reltoastidxid - c.oid) 
left join pg class o on (o.oid - ao.relid or 
o.reltoastrelid = t.oid or 
o.reltoastrelid = c.oid) 
join pg authid a on (a.oid = r.relowner) 
join pg authid m on (m.oid = coalesce(o.relowner, c.relowner)) 
join pg namespace n on (n.oid = coalesce(o.relnamespace, c.relnamespace)) 
where c.relowner «» r.relowner 


(5) 检查 Master 和 Segment 索 引 不 一 致 的 问题 


select distinct n.nspname, c.relname 
from gp dist random('pg class') r, pg class c, pg namespace n 
where r.oid = c.oid and r.relhasindex <> c.relhasindex 

and c.relnamespace = n.oid 


(6) 检查 gp_persistent 表 ， 确 定 主 备 segment 之 间 是 否 有 数据 不 同步 的 问题 


SELECT p.tablespace oid, p.relfilenode oid, p.segment file num, 
case when p.persistent s then 'free' E E 
when p.persistent s then 'create pending' 
when p.persistent state then 'created' 
S 
S 


when p.persistent then 'drop pending' 

when p.persistent ; then 'abort create' 

when p.persistent state = then 'JIT create pending' 

else 'unknown state: ' || p.persistent state 
end as persistent state, 
case when p.mirror existence state = 0 then 'mirror free' 


( 

y 

( 

(0 

| 
O4 C) IN) IE OO 


when p.mirror existence stat 1 then 'not mirrored' 
when p.mirror existence state = 2 then 'mirror create pending' 
when p.mirror existence state - 3 then 'mirror created' 
when p.mirror existence state - 4 then 'mirror down before create' 
when p.mirror existence stat 5 then 'mirror down during create' 
when p.mirror existence state = 6 then 'mirror drop pending' 
when p.mirror existence stat 7 then 'mirror only drop remains' 
else 'unknown state: ' || p.mirror existence stat 
end as mirror existence state 
FROM gp : persistent . relation node p 


WHERE (p. persistent . state not in (0, 2) 
or p.mirror existence state not in (0,1,3)) 
and p.database oid in ( 
SELECT oid FROM pg database WHERE datname = current database () 


) 


之 后 gpcheckcat 脚 本 还 会 检查 数据 文件 和 数据 字典 中 对 应 的 文件 列表 是 否 一 一 对 应 。gpcheckcat 脚 本 中 还 有 很 多 的 数据 字典 一 致 性 需要 检查 ， 这 里 就 不 一 一 介绍 了 ， 有 兴趣 的 读者 可 以 阅读 这 个 脚本 
的 源码 ， 进 而 了 解 下 脚本 里 面 是 如 何 修复 这 种 数据 不 一 致 的 (当然 ， 不 是 所 有 的 不 一 致 都 能 修复 ) 


11.9 小 结 


本 章 刚 开始 介绍 了 如 何 添加 PostgreSQL 的 Contrib 模 块 ， 以 方便 扩 dine 之 后 主要 介绍 Greenplum 提 供 的 一 部 分 脚本 的 使 用 ， 这 些 脚本 除了 二 进 制 的 bin 文 件 外 ， 大 多 都 是 用 Python 写 
的 ， 也 有 少 部 分 用 shellI 写 的 。 除 了 一 些 二 进 制 的 执行 文件 之 外 ， 其 他 都 是 可 以 看 到 源码 的 ， 通 过 这 些 代码 ， 可 以 帮助 我 们 更 好 地 了 解数 据 库 的 内 部 原理 。 


(ei 


本 章 抽 取 了 几 个 脚本 对 其 执行 步骤 进行 分 析 。 
启动 和 关闭 脚本 gbstatt 和 gbstop， 通 过 阅读 源 代 码 ， 可 以 帮助 读者 清楚 掌握 Greenplum 局 动 和 关闭 过 程 的 关键 步骤 。 
. 初始 化 系统 脚本 gpinitsystem， 了解 这 个 脚本 可 以 帮助 读者 更 好 地 了 解 Greenplum 的 架构 ， 更 容易 找 出 安装 过 程 中 出 现 错误 的 原因 。 


:数据库 状 态 检查 脚本 gpstate， 通 过 这 个 脚本 ， 可 以 监控 Greenplum 数 据 库 的 状态 是 否 正常 。 


数据 库 升 级 脚本 gbmigrate， 数 据 库 升 级 是 一 个 比较 复杂 的 事情 ， 尤 其 是 环境 变化 等 ， 学 习 这 个 脚本 ， 会 对 升级 更 加 有 把 握 。 
数据 库 一 致 性 检查 脚本 gpcheckcat， 这 是 数据 库 升级 中 比较 重要 的 一 个 脚本 ， 理 解 这 个 脚本 会 让 读者 对 Greenplum 的 数据 字段 有 更 加 深入 的 理解 。 


这 里 只 是 让 读者 对 这 些 脚本 的 内 部 原理 有 一 个 大 概 的 了 解 。 对 于 想 要 深入 了 解 的 读者 ， 可 以 结合 源码 再 读 一 饥 。 


第 12 章 ”备份 及 恢复 妥 略 


在 数据 库 系统 中 ， 数 据 的 备份 及 恢复 必 不 可 少 ， 本 章 将 通过 Greenplum 的 两 种 主 备 策略 及 备份 工具 来 讲述 数据 库 的 备份 及 恢复 策略 。 


Greenplum 4.0 以 上 版 本 对 segment 的 备份 策略 有 很 大 的 修改 ， 之 前 segment 的 同步 策略 是 基于 逻辑 复制 的 。 在 4.0 以 上 版 本 中 ，segment 之 间 的 备份 策略 改 成 了 基于 文件 的 同步 ， 下 面 先 简要 介绍 两 
者 在 原理 上 的 差异 。 


12.1 Greenplum 3.x 


在 Greenplum 3.x 版 本 中 ， 数 据 库 的 主 备 复 制 是 基于 逻辑 复制 的 ， 如 果 系 统 中 有 一 个 节点 挂 掉 了 ， 那 么 整个 系统 将 进入 只 读 状 态 ， 因 为 再 往 里 面 写 入 ， 数 据 无 法 恢复 ， 只 能 做 全 量 拷贝 。 
1. 备 份 原 理 


前 面 已 经 介绍 到 ，Greenplum 的 Segment 的 同步 是 基于 主 备 同步 的 ，Mirror Segment 是 Primary Segment 的 一 个 镜像 ， 分 别 分 布 在 不 同 的 机 器 上 可 以 应 对 有 机 器 挂 掉 的 情况 。 这 一 点 在 Greenplum 所 
有 版 本 中 都 是 一 样 的 (如 图 12-1 所 示 ) . 

在 Greenplum 3.x 版 本 中 ，Primary segment 和 Mirror Segment 的 同步 是 基于 逻辑 同步 的 。 何 为 逻辑 同步 ， 即 如 果 系 统 在 执行 会 产生 数据 的 SQL， 如 (insert, create table, create as) 等 语句 之 
后 ，Greenplum 3.x 其 实 是 将 SQL 在 Primary 和 Mirror 上 各 执行 一 遍 ， 而 非 只 是 将 最 终结 果 传 输 到 Mirror 上 ， 所 以 Greenplum3.x 版 本 是 基于 逻辑 上 的 复制 ， 而 非 物 理 上 的 复制 。 


master host segment host 1 segment host 2 segment host 7? 


segment n 
(primary) 


Segment Instance Segment Instance Segment Instance 


Greenplum Master 


| segment n 


(mirror) ; 


terusssaittat" T" 


Segment Instance 


Segment Instance 


Segment Instance 


图 12-1 Greenplum 主 备 同步 策略 
Quz 单纯 的 Select 语 句 只 会 在 Primary Segment 上 运行 ， 因 为 查询 语句 不 会 产生 新 的 数据 ，Mirror 上 无 须发 生变 更 。 
2. 失 败 节点 恢复 
由 于 是 逻辑 复制 ， 当 有 一 个 Segment 挂 掉 的 时 候 ， 默 认 Greenplum3.x 会 变 成 readonly 的 状态 ， 由 参数 gp_fault_action 控 制 。 此 时 Greenplum 必 须 等 待 失 败 的 segment 重新 启动 才能 继续 工作 。 


在 将 gp fault_action 改 成 continue 模 式 的 情况 下 ，Greenplum 可 以 正常 工作 ， 但 是 有 一 个 非常 严重 的 问题 ， 就 是 在 continue 模 式 下 ， 失 败 的 节点 不 会 再 接收 新 的 数据 ， 即 使 重新 恢复 ， 丢 失 的 数据 也 
不 会 再 恢复 。 这 个 时 候 主 备 之 间 就 出 现 了 不 一 致 的 情况 ， 如 果 想 重新 恢复 一 致 的 状态 ， 必 须 进 行 全 量 拷贝 ， 重 建 该 Segment 才 行 ， 代 价 很 高 。 


12.2 Greenplum 4.x 

在 Greenplum 4.x 版 本 中 ， 主 备 之 间 的 同步 是 基于 文件 级 复制 做 的 (如 图 12.2 所 示 ) ， 在 这 种 情况 下 ， 如 果 系 统 中 有 一 个 节点 挂 挤 了 ， 那 么 系统 仍然 可 以 继续 运行 ， 等 到 失败 节点 恢复 的 时 候 ， 再 根据 
主 备 之 间 的 文件 差异 来 同步 数据 。 

1. 备 份 原 理 


在 正常 情况 下 ，Primary segment 中 发 生 的 变更 都 会 体现 数据 文件 的 变化 ， 同 步 进 程 监控 到 此 变化 ， 就 会 记录 文件 的 同步 状态 ， 并 且 将 文件 变化 数据 块 发 送 到 Mirror 节 点 中 。 除 非 Primary 发 生 故 障 ， 
否则 Mirror 会 一 直 处 于 非 活动 状态 ， 如 图 12-2 所 示 。 


maste host 1 segment host 1 segment host 2 segment host n 


Greenplum Master 
P SEE 
segment - -€- "segment 
(mirror) - z (mirr la 
Segment Instance TEEN Meie Segment Instance 


图 12-2 Greenplum 4.x 的 基于 文件 的 主 备 同步 策略 


当 Mirror 失 败 时 ，Primary 会 记录 下 此 阶段 所 有 发 生变 更 的 文件 数据 块 ， 等 到 Mirror 节 点 恢复 后 开始 同步 。 当 Primary 失 败 时 ，Mirror 节 点 会 自动 唤醒 代替 Primary， 此 时 两 者 的 角色 会 发 生变 化 ， 系 统 


状态 会 变 为 修改 跟踪 (Change Tracking) 模式 。 待 Primary 恢 复 后 ，Primary 变 成 Mirror 节 点 ， 并 将 这 段 时 间 的 所 有 文件 同步 恢复 。 
2. 失 败 节 点 恢复 


在 Greenplum 中 ， 提 供 了 gprecoverseg 脚 本 用 于 对 失败 的 Segment 节 点 进行 恢复 。gprecoverseg 脚 本 参数 说 明 如 表 12-1 所 示 。 


表 12-1 gprecovetseg 的 参数 列表 


2 ğı 涪 。 明 
-a 不 提示 用 户 确认 
-B 并 行 度 ， 默 认 是 60 
-d Master 的 数据 日 录 ， 默 认 是 读 取 环境 变量 SMASTER. DATA. DIRECTORY 
-F 可 选 参 数 ， 会 删除 失败 Segment 上 的 所 有 数据 ， 并 全 量 数 据 同 步 整 个 Segment 
-i 指定 恢复 配置 文件 
- 指定 日 志 存 放 上 目录， 默认 是 -/gpAdminLogs 
-0 指定 文件 名 ， 输 出 恢复 配置 文件 信息 ， 其 中 包括 : 当前 失败 的 Segment 以 及 它们 默认 的 恢复 目录 ， 
格式 与 -i 参数 指定 的 一 样 
-P Tí EHE BS HdEBL CPP LS E) RO A ARHAR HLA FF (如 跟 原 有 Segment 一 样 的 操作 
系统 版 本 ， 都 有 gpadmin 用 户 ， 数 据 目 录 已 经 被 创建 ， 并 且 网 络 配置 一 样 ，ssh 通道 已 经 打通 等 ) 
-q 安静 模式 ， 命 令 输出 信息 只 写 日 志文 件 ， 不 会 打印 到 屏幕 上 
-I 恢复 所 有 的 Segment 到 它们 的 默认 角色 ， 即 如 果 主 备 发 生 过 切换 ， 则 还 原 。 执 行 这 一 步 之 前 必须 
确认 所 有 的 Segment 都 是 Synchronized 状态 的 
-S 指定 文件 空间 的 配置 文件 ， 其 中 包括 要 恢复 的 Segment 所 在 的 filespace 信息 ， 配 置 文件 的 格式 如 下 : 
pg system-default fselocation 
filespacel name-filespacel fselocation 
filespace2 name-filespace2 fselocation 
WME Greenplum 中 没有 使 用 新 增 文 件 空间 ， 那 么 默认 就 只 有 一 个 文件 空间 pg system 
-S 输出 默认 的 文件 空间 的 配置 信息 
-V 显示 版 本 信息 


下 面 通 过 实际 操作 讲解 如 何 使 用 gprecoverseg 脚 本 。 


(1) 恢复 所 有 失效 的 segment 


$ gprecoverseg 


直接 运行 gprecoverseg 脚 本 ， 会 将 所 有 失效 的 节点 打印 在 屏幕 上 。 然 后 用 户 只 需要 选择 “y” 按 钮 即 可 恢复 。 I 这 个 操作 会 导致 整个 数据 库 
卡 住 ， 无 法 执行 命令 ， 如 果 文 件 比较 多 ， 这 一 步 会 耗 时 比较 久 。 待 文件 差异 比较 完 之 后 ，gprecoverseg 脚 本 就 退出 了 ， 但 这 个 时 候 ， 数 据 还 没有 完全 同步 成 功 ， 数 据 会 在 后 台 进 行 同步 ， 同 步 状态 会 被 修改 


成 Resynchronizing， 同 步 完 成 后 同步 状态 为 Synchronized。 
在 同步 的 过 程 中 ， 可 以 通过 gpstate-m 命 令 查看 同步 的 进度 。 
(2) 还 原 所 有 Segment 的 角色 


当 Primary 节 点 失效 的 时 人 息 ，Mirror 节 点 会 接替 Primary 节 点 ， 这 时 候 主 备 的 角色 就 发 生 切 换 。 在 角色 发 生 切 换 之 后 ， 系 统 中 某 一 些 主机 上 的 Primary 就 会 比 其 他 的 主机 多 ， 会 影响 到 负载 均衡 ， 通 过 


gprecoverseg-r 可 以 恢复 所 有 segment 原来 的 角色 。 


首先 ， 执 行 这 一 步 之 前 必须 确认 所 有 的 Segment 都 是 Synchronized 状 态 的 : 


$ gpstate -m 


或 者 查看 gp segment configuration: 


testDB-4 select count(1) from gp segment configuration where status-'d' or mode<>'s'; 


等 待 数据 全 部 同步 完成 之 后 ， 运 行 恢 复命 令 : 


$ gprecoverseg -r 


同样 的 ， 如 果 重 启 数据 库 (gpstop-afr) 也 可 以 达到 一 样 的 效果 。 
(3) 全 量 恢复 


有 时 候 Sgegment 被 破坏 ， 可 能 导致 增 量 同 步 失败 ， 这 个 时 候 只 能 采用 全 量 同步 。 在 进行 全 量 同步 的 时 候 ， 应 该 使 用 gprecoverseg 先 将 能 增 量 恢复 的 节点 先 恢复 了 ， 然 后 再 开始 全 量 恢复 ， 减 少 全 量 恢复 
的 数据 量 。 


全 量 恢复 命令 如 下 : 
gprecoverseg -F 


通过 gpstate-m 查 看 恢复 的 进度 ， 下 面 截取 其 中 一 段 ， 其 中 Estimated resync progress with mirror 这 个 指标 即 为 恢复 的 百分比 。 


Segment Info 

Hostname = sdw2 

Address = sdw2 

Datadir = /home/gpadmin/gpdata/gpdatap? /gpseg3 

Port = 33001 
Mirroring Info 

Current role = Primary 

Preferred role = Primary 

Mirror status = Resynchronizing 
Change Tracking Info 

Change tracking data size = 103 MB 
Resynchronization Info 

Resynchronization mode = Full 

Data synchronized = 27.3 MB 

Estimated total data to synchronize = 10.3 GB 

Estimated resync progress with mirror = 0.26% 

Estimated resync end time = 2013-07-03 10:35:13 
Status 

PID = 30084 

Configuration reports status as = Up 

Database status = Up 
Qua 在 Greenplum4.1 上 查看 恢复 进度 是 使 用 命令 gpstate-m， 在 Gteenplum4.3 中 ， 这 一 个 功能 变 成 了 gpstate-s， 内 容 是 一 样 的 ， 只 是 用 法 的 细微 差异 。 


123 gp _ dump 和 pg dump 


1. 数 据 备份 
Greenplum 提 供 了 两 种 备份 的 工具 : gp_dump 和 pg_dump， 其 中 ，gp_dump 是 一 个 并 行 备份 命令 ,而 pg_dump 不 支持 并 发 备份 。 


gp_dump 的 并 发 备份 原理 如 图 12-3 所 示 ， 在 运行 gp_dump 的 同时 ，Master 与 所 有 的 Segment 节 点 都 开始 备份 ， 数 据 文件 都 存放 在 每 个 Instance 所 在 的 机 器 上 。 由 于 是 并 行 备份 的 ， 因 此 消耗 的 时 间 
只 跟 数 据 量 最 大 、 时 间 最 长 的 segment 有 关 ， 而 与 集群 中 yegment 的 个 数 无 关 。 


全 注意 Master 并 不 保存 实际 数据 ， 那 么 Master 备 份 的 数据 是 哈 呢 ? 
Master 主 机 上 的 备份 文件 包括 所 有 的 DDL 命 令 生 成 的 元 数据 信息 ， 以 及 一 些 全 局 的 系统 表 ( 如 gp_segment_configutation) ， 全 局 系统 表 的 数据 只 会 在 Mastetr 上 。 


每 个 segment 上 都 会 有 对 应 的 数据 文件 ， 其 文件 名 包括 Segment 的 dbid 及 一 个 14 位 的 时 间 惟 ， 这 个 时 间 戳 在 恢复 数据 的 时 候 需要 用 到 。 


图 12-3 ”gp_dump 备 份 原理 


有 一 个 与 gp _dump 的 命令 相关 的 命令 gpcrondump， 该 命令 是 gp dump 的 一 个 封装 ， 可 以 直接 调用 或 从 crontab 中 调用 。 


gp_dump 的 语法 如 下 ， 其 中 的 脚本 参数 如 表 12-2 所 示 。 


gp dump [OPTION]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14936/OEBPS/Text/... [DBNAME] 


m 


m 


-a|--data-only 

-C|--clean 

-d|--inserts 

-D --column-inserts 
-E|--encoding-ENCODING 
-n|--schema- SCHEMA 
-0|--oids 

-O|--no-owner 
-N|--exclude-schema- SCHEMA 
-S|--schema-only 

-S| --superuser-NAME 
-t|--table- TABLE 

-T| --exclude-table- TABLE 


-X|--no-privileges 


表 12-2 ”gp_dump 肚 本 参数 
说 明 

只 备份 数据 ， 不 备份 模式 〈 数 据 定 义 ) 
在 创建 新 的 模式 的 时 候 ， 将 原 有 的 模式 删除 ， 即 导出 的 数据 定义 中 包括 删除 语句 
导出 的 数据 格式 为 Insert 语句 ， 原 先是 用 copy 命令 导出 的 纯 数据 文本 
吐出 的 Insert 语句 中 包括 字段 名 
吐出 的 数据 编码 
只 导出 对 一 个 schema 
将 表 的 oid 字段 也 同时 导出 
不 导出 表 的 owner ith 
不 导出 某 个 schema 
只 保留 数据 定义 ,不 包括 数据 
指定 superuser 用 户 
只 导出 匹配 的 表 
不 导出 指定 的 表 
不 导出 权限 信息 


2 i Wi 明 
-h|--host Greenplum Master 主机 名 
-p|--port Greenplum Master ji; H 
-U|--username HP 
-W 强制 使 用 密码 
--gp-c 使 用 gzip 压缩 
--gp-d-BACKUPFILEDIR 指定 备份 的 数据 目录 
--gD-I=REPORTFILEDIR. 指定 report 的 目录 
--gp-s=BACKUPSET 指定 Segment 的 dbid 的 列表 ， 可 以 只 备份 某 几 个 Segments 的 数据 


而 pg dump 是 与 PostgreSQL 一 样 的 备份 工具 ， 不 支持 并 发 备份 ， 在 数据 量 比较 大 的 情况 下 不 切实 际 ， 这 个 工具 多 用 于 从 常规 的 PostgreSQL 数 据 库 系统 迁移 到 Greenplum 系 统 的 情况 。 下 面 通过 一 个 
简单 的 比较 ， 让 读者 对 gp dump 和 pg dump 性 能 差异 有 一 个 比较 直观 的 理解 。 例 子 中 都 只 导出 member 表 数据 (该 数据 是 随机 生成 的 ) ，Greenplum 集 群 为 4 台 物 理 机 ，12 个 Segment， 表 大 小 大 概 为 
11GB。 


使 用 pg_dump 脚 本 导出 ， 消 耗 时 间 为 52 秒 : 


$time pg dump -t member -c -f -/member.dat 
real 0m52.845s 

user 0m2.968s 

sys 0m7. 883s 


使 用 gp_dump 并 行 导出 ， 消 耗 的 时 间 为 22 秒 : 


$ time gp dump --table-member --gp-d /home/gpadmin/gp dump/ --gp-r-/home/gpadmin/gp dump/ 
# 中 间 数 据 结果 略 过 

gp dump utility finished successfully. 

real 0m22.105s 

user 0m0 . 005s 

sys 0m0 . 004s 


下 面 是 使 用 gp dump 之 后 产生 的 一 个 报告 : 


Greenplum Database Backup Report 
Timestamp Key: 20130704075523 
gp dump Command Line: --table-member --gp-d /home/gpadmin/gp dump/ --gp-r-/home/gpadmin/gp dump/ 
Pass through Command Line Options: -t member 
Compression Program: None 
Individual Results 
segment 7 (dbid 9) Host sdw3 Port 33001 Database testDB BackupFil 
/home/gpadmin/gp dump/gp dump 0 9 20130704075523: Succeeded 
segment 6 (dbid 8) Host sdw3 Port 33000 Database testDB BackupFil 
/home/gpadmin/gp dump/gp dump 0 8 20130704075523: Succeeded 


[0] 


[0] 


segment 0 (dbid 2) Host mdw Port 33000 Database testDB BackupFile 
/home/gpadmin/gp dump/gp dump 0 2 20130704075523: Succeeded 
Master (dbid 1) Host mdw Port 2345 Database testDB BackupFile /home 
/gpadmin/gp dump/gp dump 1 1 20130704075523: Succeeded 
Master (dbid 1) Host mdw Port 2345 Database testDB BackupFile /home 
/gpadmin/gp dump/gp dump 1 1 20130704075523 post data: Succeeded 
gp dump utility finished successfully. 


在 结果 报告 中 有 几 个 点 需要 注意 。 
Timestamp Key 是 系统 自动 生成 的 时 间 戳 字段 ， 可 以 说 是 备份 的 唯一 识别 码 。 在 进行 数据 恢复 的 时 候 ， 需 要 通过 制定 Timestamp Key 来 实现 。 


每 台 主 机 上 对 应 的 segment 节点 都 有 对 应 的 数据 文件 ， 文 件 名 格式 为 : 


gp dump 0 «dbid» < timestamp» 


在 这 个 文件 中 ， 只 有 一 些 参数 配置 和 原 表 在 该 Segment 上 的 数据 ， 与 pg_dump 单 库 导出 格式 基本 一 样 (只 导出 数据 ) ， 对 应 的 导出 日 志文 件 为 : 


gp dump status 0 < dbid» < timestamp» 


在 Master 上 ， 文 件 名 的 格式 为 : 


gp dump 1 «dbid» < timestamp» 


这 个 文件 保存 了 表 的 定义 等 信息 ， 没 有 原 表 的 数据 ， 如 果 表 中 有 其 他 的 相关 对 象 ， 那 么 这 些 内 容 会 被 报错 在 gp dump 1 «dbid» «timestamp» post data 这 个 文件 中 。 
如 果 是 全 库 备 份 ， 在 Master 上 还 有 gp catalog 1 <dbid>_<timestamp> ， 用 于 保存 系统 日 志 表 的 结构 和 数据 。gp_catalog 1 <dbid>_<timestamp> 则 保存 了 数据 库 的 创建 语句 。 


gp_dump 在 每 个 Segment (包括 Master) 上 启动 gp_dump_agent 的 进程 进行 备份 ， 在 备份 过 程 中 ，gp_dump_agent 会 向 Master 的 gp_ dump 进程 汇报 ， 当 所 有 的 Segment 都 完成 的 时 候 ， 备 份 成 
功 。 


2. 数 据 恢复 


和 gp_dump 对 应 的 并 行 恢 复命 令 为 gp_restore， 这 个 命令 通过 gp_dump 产 生 时 间 惟 来 识别 备份 的 集合 ， 恢 复数 据 库 对 象 及 数据 到 数据 库 中 。gp_restore 的 参数 基本 与 gp_dump 的 参数 对 应 ， 相 对 简单 
很 多 ， 读 者 可 参考 文档 或 命令 帮助 ， 这 里 不 再 列举 。gp_restore 的 恢复 原理 如 图 12-4 所 示 。 


从 图 12-4 上 可 以 看 出 ， 在 恢复 的 时 候 ， 数 据 库 的 Segment 数 量 必须 与 原来 的 保持 一 致 ， 如 果 是 迁移 数据 库 ， 那 么 为 了 能 够 并 行 恢 复 ， 目 标 数据 库 就 必须 与 原 有 数据 库 的 Segment 一 致 ， 否 则 无 法 使 用 


gp restore, 


图 12-4 gp restore X /$ € 


要 恢复 上 节 使 用 gp dump 导出 的 数据 ， 可 使 用 如 下 命令 ， 其 中 --gp-k 参 数 ， 即 指定 gp_ dump S HAIR: 


gp restore --gp-d /home/gpadmin/gp dump/ --gp-r-/home/gpadmin/gp dump/ --gp-k=20130704075523 


全 注意 “在 Grenplum 官 方 文档 中 也 介绍 了 如 何 将 数据 恢复 到 Segment 上 不 同 的 数据 库 中 ， 简 单 来 说 ， 就 是 将 全 部 数据 汇总 到 Master 上 ， 然 后 将 所 有 操作 交 由 Master 执 行 ， 这 样 就 将 并 行 恢复 改 成 囊 行 恢 
复 ， 性 能 瓶颈 在 Master 上 ， 所 有 数据 必须 流 过 Master， 性 能 很 差 ， 原 理 如 图 12-5 所 示 。 


图 12-5 ”使 用 gp_qump 对 数据 进行 非 并 行 恢复 


124 Greenplum Master 备 份 策略 


Greenplum Master 同 样 也 有 一 个 备份 ， 叫 做 Standby Master, Primary Master 与 standby Master 之 间 通 过 WAL 日 志 来 进行 同步 ， 后 台 有 一 个 运行 在 standby 主 机 上 的 名 为 gpsyncagent 的 进程 负责 
数据 的 同步 ， 如 图 12-6 所 示 。Sstandby 在 正常 情况 下 都 处 于 非 活动 状态 ， 当 Master 发 生 故 障 无 法 恢复 时 ， 可 激活 Standby 继 续 提 供 服 务 。 


primary master host standby master host 


System Catalogs 


synchronization 
process 


Transaction Logs | ,.. Transaction Logs 


图 12-6 Greenplum Mastet 备 份 策略 


12.4.1 增加 Standby Master 


在 初始 化 Greenplum 的 时 候 (gpinitsystem) 可 以 配置 Standby 一 一 使 用 -s 参 数 ， 具 体 用 法 可 查询 gpinitsystem 脚 本 帮助 。 

如 果 在 原 有 系统 中 没有 设置 Standby， 可 以 增加 Standby， 如 果 Standby Master 已 经 失效 ， 可 以 将 其 删除 。 本 节 将 讲述 如 何 增加 及 删除 Standby。 
增加 Standby Master 的 步骤 如 下 (在 Greenplum4.1.8 中 测试 通过 ， 在 Greenplum 4.3 中 的 差异 在 本 节 最 后 会 介绍 ) 。 

step1: 确保 在 standby 主 机 上 已 经 正确 配置 好 环境 ， 如 gpadmin 用 户 、 安 装 文件 、ssh 通 道 互 信 、 数 据 目 录 等 。 


Step2: 运行 gpinitstandby 脚 本 ， 命 令 如 下 : 


gpinitstandby -s mdw2 


在 初始 化 的 过 程 中 ，Greenplum 会 先 用 gpstop-a 停 止 数据 库 ， 然 后 使 用 utility 模 式 启动 Master， 在 数据 字典 (gp segment configuration) 中 增加 Standby Master 的 配置 ， 关 闭 Master。 接 着 将 文 
件 系统 中 的 数据 从 Master 上 复制 到 Standby Master 上， 最 后 重新 启动 数据 库 即 可 。 


Qum 删除 Standby Mastet， 则 使 用 -+ 参数 ， 如 gpinitstandby-t。 
12.4.2 ”重新 同步 Standby Master 


如 果 系 统 中 已 经 有 standy Master， 但 是 这 个 节点 已 经 不 同步 了 ， 那 么 可 使 用 -n 参 数 进 行 重新 同步 ， 使 用 这 个 参数 的 做 法 与 初始 化 Standby 基 本 一 致 ， 不 同 点 是 ,数据 字典 中 已 经 有 了 相关 配置 ， 重 新 
同步 不 用 再 更 新 。 


gpinitstandby -n 


在 数据 字典 gp_master_ mirroring 中 ， 可 以 查看 Master 主 备 之 间 的 同步 状态 ， 如 : 


testDB-4 select * from gp master mirroring ; 


summary state | detail state | log time | error message 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
Synchronized | | 2013-07-28 01:26:10-08 | 

(1 row) 


12.4.3 启用 Standby Master 


如 果 Master 已 经 失败 且 无 法 恢复 (例如 ， 不 能 重启 ) ， 这 时 候 就 需要 激活 Standby Master， 蔡 代 原 先 Master 的 功能 ， 步 骤 在 官方 文档 中 已 经 描述 得 很 清楚 了 ， 这 里 将 真实 模拟 Master 挂 掉 的 情况 ， 并 
切换 到 Standy Master 上 。 


首先 ， 在 一 个 已 经 启动 的 集群 上 ， 确 保 Standy Master 已 经 配置 并 处 于 同步 状态 。 


使 用 gpstate-f 命 令 ， 查 看 Master 状 态 ， 从 Summary State 中 可 以 看 出 Standy Master 正 处 于 Synchronized (同步 ) 状态 ， 结 果 如 图 12-7 所 示 。 


-十 
MN (Greenplum Database) 4.1.1.1 build 


[INFO ]:-Oobtaining segment details from master... 
[INF]: -standby master detai ls 

[INFO ]:- 
[INFO]:- tandby | 
[INFO]:- standby data s gases /data/gpmaster/gpseg- 


[INFO ]:- standby port 

[INFO]:- ‘tandby PID 

[INFO]:- standby status 

- [INF9]:- | | 

[INFO]: --gp. master mirroring table 

[INFO]: - ---- --------------------------------------------------------- 
[INFO ]:--Summary state: Synchronized 

[INFO]:--Detail state: 

[INFO]: --Log time: 2013- 07- 29 90: 153 26408 

[INFO]:- 


图 12-7 使 用 gpstate 查 看 Standy Master 状 态 


在 确保 Master 处 于 同步 状态 之 后 ， 我 们 将 停止 Master， 模 拟 Master 失 效 的 情况 。 可 以 杀 掉 Master 进 程 ， 或 是 用 gptop-m 命 令 关闭 Master， 再 或 者 直接 关闭 Master 主 机 的 电源 ， 这 里 使 用 gpstop- 


$ gpstop -m 


在 Master 关 闭 后 ， 登 录 到 Standy Master 主 机 上 ， 运 行 gpactivatestandby 命 令 ， 激 活 Standy。 


gpactivatestandby -d $MASTER DATA DIRECTORY 


激活 过 程 如 图 12-8 所 示 。 


[INFO] ERAT qpsync process... 
Eis -Success y shutdown sync process 
il 


| -Starting standby master database in utility mode... 
INFO 


: -Reading current configuration... 


[INFO]:-Updating catalog... 
[INFO]:-Database catalog updated successful 
[INFO]:-Stopping database... 

[INFO] 


-Starting database in production mode... 


图 12-8 激活 Standy Master 


接着 ， 对 整个 数据 库 进 行 ANALYZE， 收 集 统计 信息 : 


$ psql -d testDB -c "ANALYZE" 


此 时 Standy Master 已 经 启动 完毕 ， 但 是 所 有 的 客户 端 连 接 的 IP 都 需要 修改 成 standy Master 的 IP。 
如 果 需 要 重新 切换 到 原 有 的 Master 上 ， 那 么 使 用 gpinitstandby 脚 本 ， 将 原 有 的 Master 变 成 Standby Master， 然 后 再 将 其 激活 重新 成 为 Master 即 可 。 


Qua Greenplum 4.3 对 Mastef 主 备 同 步 进行 了 优化 ， 使 得 主 备 同步 更 加 稳定 及 易 用 ， 其 中 原来 查询 主 备 同步 的 数据 字典 gp_mastef_mirroting 被 删除 了 ， 替 之 以 pg_stat_activity 这 个 视图 。 读 者 可 以 通过 下 


面 SQL 查询 主 备 同步 状态 : 


testDB-4 SELECT procpid, state FROM pg stat replication; 
procpid | state 

26421 i streaming 
(1 row) 


在 使 用 gpstate-f 查 看 的 时 候 ， 如 果 显 示 下 面 提 示 ， 则 Master 主 备 为 同步 状态 : 


WAL Sender State: streaming 
Sync state: sync 


— 
N 


本 章 介绍 了 在 Greenplum3.x 版 本 和 4.x 版 本 中 ， 采 用 的 segment 数据 备 份 原 理 的 差异 ， 并 且 介 绍 了 如 何 使 用 gprecoverseg 脚 本 对 失败 节点 进行 恢复 。 之 后 介绍 数据 导出 工具 gp dumpfüpg dump, 并 
简单 比较 了 它们 的 性 能 差异 。 最 后 介绍 了 Master 的 备份 策略 。 


除了 可 以 使 用 以 上 介绍 的 备份 策略 之 外 ， 还 可 以 使 用 其 他 的 备份 策略 ， 例 如 通过 数据 元 余 ， 文 件 系统 级 别 的 数据 备份 (如 使 用 ZFS) 等 。 


保证 数据 安全 不 丢失 的 重要 性 不 言 而 喻 ， 因 此 ， 用 户 在 使 用 Greenplum 之 前 ， 必 须要 对 其 数据 备份 策略 有 所 了 解 ， 通 过 实验 ， 建 立 起 各 种 异常 情况 的 应 急 方案 ， 这 将 会 大 大 降低 问题 发 生 之 后 的 危害 。 


第 13 草 ”数据库 扩容 


数据 库 在 使 用 的 过 程 中 会 随 着 数据 量 的 增加 而 需要 扩容 ， 一 般 需要 扩容 的 原因 如 下 。 
. 历史 数据 量 增 加 ， 磁 盘 空间 不 足 。 

. 计算 的 数据 量 增加 ， 计 算 性 能 跟 不 上 (CPU 或 磁盘 IO 吞吐 限制 ) 。 

. 网 络 传输 量 增加 ， 网 卡 限制 。 


在 分 布 式 数据 库 扩容 中 ， 最 简单 的 就 是 升级 机 器 硬件 。 升 级 机 器 硬件 比较 通用 ， 与 Greenplum 的 关系 并 不 大 ， 本 章 不 再 描述 。 另 外 一 种 扩容 就 是 增加 机 器 ， 将 数据 迁移 到 新 的 机 器 上 。 在 Greenplum 
中 ， 增 加 机 器 的 方法 有 两 种 : 1) 迁移 计算 节点 ; 2) 增加 计算 节点 。 


迁移 计算 节点 比较 简单 ， 而 且 代价 较 低 ， 在 笔者 公司 ， 一 般 采 用 这 种 方法 ， 但 是 需要 在 数据 库 搭 建 的 时 候 有 容量 的 规划 。 为 了 增加 计算 节点 ，Greenplum 提 供 了 gpexpand 扩 容 脚本 ， 还 有 一 种 方法 就 
是 对 数据 库 机 器 进行 升级 ， 下 面 对 这 几 种 方法 分 别 进行 描述 。 


13.1 迁移 计算 节操 


假设 Greenplum 的 每 一 台 机 器 上 都 有 4 个 Segment (两 主 两 备 ) ， 扩 容 的 时 候 可 以 增加 一 倍 的 机 器 ， 将 每 台 机 器 改 成 有 两 个 egment (一 主 一 备 ) 。 


如 图 13-1 的 扩容 方案 所 示 ，Greenplum 在 扩容 前 有 两 台 机 器 (SDWTRISDW2) ， 每 台 机 器 是 两 主 两 备 ， 扩 容 时 增加 了 一 倍 的 机 器 (SDW3 和 SDW4) ， 将 SDW1 中 的 一 主 (Seg2) 一 备 (Seg4) 迁移 
到 SDW3 中 ， 同 样 的 ， 将 SDW2 的 两 个 segment 迁 移 到 3DW4 中 。 假 设 所 有 机 器 的 配置 都 是 一 样 的 ， 那 么 Greenplum 则 成 功 从 2 人 台 机 器 扩容 到 了 4 人 台 机 器 ， 性 能 跟 存 储 都 翻 了 一 倍 。 


图 13-1 迁移 节点 扩容 示例 


图 1-1 只 演示 了 最 简单 的 方法 ， 如 果 一 台 机 器 是 三 主 三 备 ， 则 增加 的 机 器 数 就 必须 是 原来 的 1/2 ( 改 成 一 机 两 主 两 备 ) ， 或 者 是 原来 的 2 倍 ( 改 成 一 机 一 主 一 备 ) 。 如 果 是 四 主 四 备 ， 情 况 就 更 多 一 些 ， 
读者 可 以 按照 这 种 方法 继续 推算 。 


13.1.1 两 种 备份 方案 


在 Greenplum 中 ， 备 份 方案 有 两 种 ， 一 种 是 Grouped Mirror， 一 台 机 器 的 Primary segment 对 应 的 Mirror segment 也 同样 放 在 同一 台 机 器 上 ， 如 图 13-2a 所 示 。 另 外 一 种 是 Grouped Mirror， 一 台 
机 器 的 Primary Segment 对 应 的 Mirror Segment 按 顺序 打 散 在 邻接 的 机 器 上 ， 如 图 13-2b 所 示 。 
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a) 主 备 设置 方案 1 一 一 Grouped Mirror b) 主 备 设置 方案 2 一 一 Spread Mirror 


图 13-2 ”Greenplum 主 备 设置 的 两 种 备份 方案 策略 
下 面 介 绍 主 备 设置 的 两 种 备份 方案 的 优 缺 点 。 


Grouped Mirror: 假设 sdw1 有 死机， 那么 sdw2 的 Mirror 将 会 作为 Primary 继 续 提 供 服务 ， 这 样 sqw2 上 就 会 有 6 个 Primary Segment， 由 于 Primary 的 消耗 要 比 Mirror 多 很 多 ， 所 以 sdw2 容 易 成 为 性 能 瓶 
颈 。 而 Spread Mirror 则 可 以 将 sdw1 的 Mirror segment 分 布 到 另外 3 人 台 机 器 上 ， 这 样 就 相当 于 剩 下 的 3 全 机 器 每 台 机 器 有 4 个 Primary， 刚 好 能 够 做 到 负载 均衡 。 


Spread Mirror: 从 图 13-2b 中 可 以 看 出 ， 如 果 sdw1 死 机 ， 那 么 这 时 候 系 统 不 能 再 有 任何 一 人 台 机 器 死机 ， 否 则 由 于 没有 完整 的 Primary Segment， 整 个 数据 库 就 会 死机 。 而 对 于 Grouped Mirror, 
此 时 sdw3 再 死机 ， 系 统 仍 可 正常 工作 (sdw2 跟 sdw4 不 能 再 死机 ) 。 


在 一 般 情 况 下 ， 在 Greenplum 中 同时 死机 两 台 机 器 的 概率 很 低 ， 但 是 一 台 机 器 死机 的 概率 较 高 ， 笔 者 建议 用 户 部 署 Greenplum 的 时 候 ， 采 用 Spread Mirror. 


个 注意 “Greenplum 初 始 化 的 时 候 ， 黑 认 是 Grouped Mirror， 在 初始 化 数据 库 的 时 候 ， 可 以 加 上 -8 参数 ， 即 可 使 用 Spread Mirror， 使 用 方法 如 下 : 


$ gpinitsystem -s mdw2 -c initgp config -S 


13.1.2 ”数据 迁移 实战 


下 面 通过 一 个 实验 来 介绍 在 实际 中 节点 是 如 何 迁 移 的 ， 对 于 前 面 介 绍 的 两 种 不 同 的 备份 策略 ， 要 耐心 分 析 好 需要 迁移 的 节点 ， 本 例子 在 Greenplum 4.1.8 中 测试 通过 。 
数据 迁移 的 原则 如 下 。 


1) 迁移 时 一 定 要 保证 同一 个 数据 节点 的 Primary Segment 和 Mirror Segment 不 能 在 同一 个 节点 上 。 
2) 在 同一 个 机 器 上 ， 不 能 迁移 使 用 同一 个 端口 的 Segment。 


图 13-3 则 是 对 应 13.1.1 节 中 的 两 种 备份 策略 。 
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图 13-3 ”对 应 备份 方案 的 两 种 数据 迁移 方案 


接 下 来 对 图 13-3a 展 示 的 Grouped Mirror 的 数据 迁移 方案 为 例 ， 进 行 数据 迁移 实战 ， 数 据 迁移 在 实际 操作 上 有 两 种 方案 。 
方案 1: 如 图 13-1 所 述 ， 停 机 将 文件 复制 到 对 应 的 机 器 上 (最 简单 的 ， 可 以 使 用 scp 命 令 ) ， 复 制 完 了 之 后 ， 修 改 gp_segment_configuration 中 对 应 节点 的 hostname。 


方案 2: 首先 修改 gp_segment_configuration， 将 要 迁移 的 Segment 对 应 的 Mirror 节 点 的 hostname 和 address 修 改 成 新 增 机 器 对 应 的 hostname 和 address， 使 用 gprecoverseg-F 全 量 恢复 Mirror 节 
点 。 然 后 再 用 同样 的 方法 迁移 Primary 节 点 。 


下 面 通过 操作 实战 来 实现 上 面 两 个 方案 。 
方案 1: 使 用 scp 
1) 新 增 的 机 器 已 经 安装 好 了 ， 包 括 操 作 系统 、 网 络 及 相关 的 软件 等 。 然 后 利用 gpssh-exkeys 脚 本 ， 将 sdw5 和 sdw6 两 台 机 器 ， 跟 原 有 的 机 器 ssh 通 道 打 通 。 


原 有 Greenplum 的 集群 配置 如 下 : 


testDB-4 select dbid,content,role,mode,hostname,port from gp segment configuration order by dbid; 


dbid content role | mode |hostname| port 
一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 
ln =] | p S mdw 2345 
2 0 | P S sdw 33000 
3 1 | P S sdw 3300 
4 2| p S sdw 33002 
5 3|p S sdw2 33000 
6 4 | p S sdw2 3300 
7 5 [p S sdw2 33002 
8 6 | p S Sdw3 33000 
9 7 | p S sdw3 3300 
10 8 | p S Sdw3 33002 
11 9|p S sdw4 33000 
12 10 |p S sdw4 3300 
13 11 p S sdw4 33002 
14 0 | m S sdw2 43000 
15 1 im S sdw2 4300 


16 2 m S Sdw2 43002 
17 3 m S Sdw3 43000 
18 4 m S sdw3 43001 
19 5 m S Sdw3 43002 
20 6 m S sdw 3000 
21 7 m S sdw4 43001 
22 8 m S sdw 3002 
23 9 m S sqdwl 43000 
24 10 m S sdw1 43001 
25 11 m S sdw1 43002 
(25 rows) 


使 用 gpssh-exkeys 命 令 打 通 ssh 通 道 ， 使 所 有 机 器 互信 : 


$ cat segments 

sdw1 

sdw2 

sdw3 

sdw4 

sdw5 

Sdw6 

$ gpssh-exkeys -f segments 


2) 在 新 增 的 两 全 机 器 上 创建 对 应 的 数据 目录 ， 并 利用 gp_segment_ configuration 和 pg filespace_entry 生 成 scp 命 令 : 


select 'scp -r ' || hostname || ':' || b.fselocation || ' sdw5:' || 
b.fselocation 

from gp segment configuration a 

join pg filespace entry b on a.dbid - b.fsedbid 


where (content in (0, 4) and role = 'p') or (content in (9, 1) and role = 'm') 
union all 
select 'scp -r ' || hostname || ':' || b.fselocation || ' sdw6:' || 


b.fselocation 

from gp segment configuration a 
join pg filespace entry b on a.dbid - 

where (content in (6, 10) and role = 'p 


b.fsedbid 
') or (content in (3, 7) and role = 'm'); 


3) 停止 集群 并 开始 复制 segment 上 所 有 的 数据 文件 。 


$ gpstop -af 
$ scp -r sdwl:/data/gpdatapl/gpseg0 sdw5:/data/gpdatapl/gpsegO 


4) 等 待 所 有 scp 结 束 。 


5) 只 启动 Master (gpstart-m) ， 修 改 gp_segment configuration ， 修 改 前 要 先 备 份 这 个 表 ， 免 得 误 操 作 导 致 数据 无 法 恢复 。 


$ gpstart -m 

$ PGOPTIONS-"-c gp session role-utility" psql 

testDB=# update gp segment configuration set hostname- 'sdw5',address-'sdw5' where (content in (0,4) and role = 'p') or (content in (9, 1) and role = 'm'); 
UPDATE 4 
testDB=# update gp segment configuration set hostname- 'sdw6',address-'sdw6' where (content in (6,10) and role = 'p') or (content in (3, 7) and role = 'm'); 
UPDATE 4 

testDB-4 \q 

$ gpstop -m 


9 注意 在 Greenplum4.1 之 前 版 本 ， 数 据 字 典 可 以 更 新 , 但 是 Greenplum4.2 之 后 的 版 本 ， 数 据 字 典 都 不 能 更 新 了 。 但 是 Greenplum4.2 之 后 的 版 本 自 带 了 一 个 隐藏 参数 allow_system_table_mods。 在 会 话 级 


别 运行 Set allow_system_table_mods='dml' 命 令 设 置 下 ， 数 据 字 典 就 可 以 更 新 的 ， 更 新 数据 字典 有 风险 ， 操 作 必 须 十 分 谨慎 。 


6) 启动 Greenplum， 并 建 表 验 证 数据 库 是 否 正常 ， 检 查 Segment 节 点 的 状态 ， 如 果 有 节点 不 同步 ， 则 运行 gprecovery 进 行 同 步 。 


$gpstart -a 
$ psql 
psql (8.2.15) 


Type "help" for help. 
testDB=# create table test 1 as select * from pg class distributed randomly; 
SELECT 379 


至 此 ， 数 据 库 迁移 成 功 。 
Qua 一 般 迁 移 数据 的 时 候 ， 使 用 scp 性 能 较 差 ， 可 以 编写 一 些 并 发 传输 的 工具 进行 复制 ， 并 加 入 数据 校 验 ， 这 样 可 以 大 大 提升 性 能 及 安全 性 。 
方案 2: 利用 gprecoverseg-F 


在 上 一 章 中 讲 到 ，gprecoverseg-F 是 在 某 个 Segment 无 法 进行 增 量 恢 复 时 用 来 进行 全 量 恢复 的 工具 ， 利 用 这 个 全 量 恢 复工 具 可 以 避免 使 用 SCP 对 文件 进行 复制 ， 而 直接 使 用 Greenplum 自 带 的 数据 同 
步 工 具 ， 这 种 方案 相对 简单 一 些 。 


1) 与 方案 1 的 操作 一 致 。 
2) 只 启动 Master (gpstart-m) ， 修 改 gp_segment configuration ， 修 改 前 要 先 备份 这 个 表 ， 免 得 误 操 作 导 致 数据 无 法 恢复 。 


$ gpstart -m 


使 用 utility 模 式 登 录 Master: 


$ PGOPTIONS-"-c gp session role-utility" psql 


执行 下 面 的 SQL 语句 ， 修 改 gp_segment configuration, 


- 将 要 迁移 的 节点 的 status 标 记 成 d ( 即 down) : 


) or (content in (9, 1) and role , 


update gp segment configuration set dhostname-'sdw5' , address-'sdw5',status-'d' where (content in (0, 4) and role i 
) or (content in (3, 7) and role 


update gp segment configuration set hostname='sdw6', address-'sdw6',status-'d' where (content in (6, 10) and role 


“ 然后 将 被 标记 成 down 的 Ptimaty 节 点 对 应 的 Mitrot 切 换 成 Primaty : 


update gp segment configura 


tion set role-CASE WHEN preferred role-'p' THEN 'm' ELSE 'p' END where (content in (0, 4) ); 


update gp segment configura 


tion set role-CASE WHEN preferred rol e-'p' THEN 'm' ELSE 'p' END WHERE (content in (6,10)); 


. 将 同步 状态 mode 修 改 为 c (Change Tracking) 模式 ， 即 该 节点 不 同步 : 


update gp segment configura 


tion set mode-'c' where (content in (0,4,9,1) AND role = 'p'); 


update gp segment configura 


tion set mode-'c' where (content in (6,10,3,7) and role = 'p'); 


人 注意 “由 于 迁移 的 节点 都 没有 相同 的 Segment， 因 此 可 以 一 起 操作 ， 如 果 有 相同 的 Segment， 则 必须 分 两 次 完成 。 


3) 使 用 gpstart-a 启 动 数据 库 ， 


[INFO]: -Process 


这 个 时 候 由 于 有 8 个 数据 库 被 迁移 走 ， 被 标记 成 失败 状态 ， 故 启动 时 自动 跳 过 这 8 个 节点 ， 如 图 13-4 所 示 。 


results.. 


Failed segment starts 


Successful segment starts 16 
: 0 
8 


WARNING]:-Skipped segment starts (segments are marked down in configuration) 


[INFO] 
INFO ]:- 


k i RU, 


[INFO] : -Successfully started 16 of 16 segment instances, skipped 8 other segments 


[INFO]: 


4) 全 量 恢 复 这 8 个 节点 : 


$ gprecoverseg -F 


图 13-4 ”Greenplum 启 动 时 有 8 个 节点 失败 


在 同步 过 程 中 ， 可 以 使 用 gpstate-s 查 看 数据 恢复 进度 ， 如 图 13-5 所 示 。 


mi 
Mirroring Info 


Current role - Primary 
Preferred role | Mirror. 
Mirror status - Resynchronizing 


Change Tracking Info 


Change tracking data size 


Resynchronization Info 


Resynchronizat1on mode 

Data synchronized 

Estimated total data to synchronize 
Estimated resync progress with mirror 
Estimated resync end time 


Status 


PID 
Configuration reports status as 
Database status 


图 13-5 ”使 用 gpstate-s 查 看 全 量 数 据 恢复 进度 


此 时 数据 在 恢复 过 程 中 ， 数 据 库 可 用 ， 就 是 比较 慢 ， 等 待 数据 恢复 完成 即 可 。 


Qum 在 迁移 完 数 据 之 后 ， 


还 需要 对 老 的 数据 进行 清理 。 为 了 避免 误 操 作 ， 在 清理 的 时 候 ， 可 以 先 关闭 数据 库 ， 然 后 将 要 清理 的 Segment 的 数据 目录 重 命名 ， 之 后 启动 数据 库 。 如 果 数 据 库 启动 成 


功 ， 则 刚刚 重 命名 的 节点 就 是 要 删除 的 节点 ， 没 有 操作 失误 ， 这 样 就 可 以 安心 删除 重 命名 之 后 的 数据 文件 了 。 


对 于 有 Mirror 的 Greenplum 集 群 来 说 ， 图 13-2 描 述 的 两 种 Mirror 的 分 布 策 略 对 新 增 的 主机 数 有 如 下 的 限制 。 


: Grouped Mirror: 新 增 的 主机 数 必须 大 于 等 于 2， 确 保 新 增 Primary Segment 的 Mitror Segment 不 在 同一 台 机 器 上 ， 如 图 13-6 所 示 。 


Spread Mirror: 新 增 的 主机 数 至 少 要 比 每 个 主机 上 Primary Segment 的 数量 大 1， 这 样 才 能 确保 Mirtot 可 以 平均 分 配 在 其 他 的 Segment 节 点 上 ， 如 图 13-7 所 示 。 


Qus 以 上 限制 是 在 不 迁移 原 有 的 Segment 情 况 下 ， 如 果 同 时 结合 上 一 节 迁 移 节点 的 方案 进行 ， 则 只 需要 保证 每 一 台 主 机 上 都 没有 相同 Segment 的 主 备 节点 ， 不 受 这 个 限制 。 
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图 13-6 Grouped Mirror 的 增加 节点 方案 


Greenplum 管 理 员 手 册 对 gpexpand 的 一 些 准 备 工 作 进行 了 很 清楚 的 讲解 ， 这 里 不 再 复述 。 
Gpexpand 脚 本 有 两 个 阶段 ， 第 一 阶段 是 segment 初 始 化 ， 第 二 个 阶段 是 表 重 分 布 。 


在 segment 初始 化 阶段 ，gpexpand 接 受 一 个 配置 文件 ， 在 这 个 配置 文件 中 指定 新 的 Segment 的 数据 目录 、 对 应 的 dbid， 以 及 一 些 其 他 的 参数 。 用 户 可 以 自己 手工 创建 这 个 配置 文件 ， 也 可 以 根据 
gpexpand 脚 本 ， 通 过 提示 生成 一 个 配置 文件 (与 gpfilespace 一 样 ) 。 


如 果 用 户 选 择 根据 提示 生成 配置 文件 ， 需 要 提供 一 个 hosts 文 件 ， 保 存 新 增 机 器 的 hostname， 使 用 -f 参 数 指定 hosts 文 件 。 
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图 13-7 Spread Mirrot 的 增加 节点 方案 


Segment 初 始 化 阶段 包括 以 下 三 个 操作 。 

1) 创建 新 的 Segment 实 例 ， 该 实例 拥有 所 有 表 的 元 数据 信息 ， 但 是 没有 实际 数据 。 

2) 创建 一 个 新 的 schema， 名 为 gpexpand， 这 个 schema 中 保存 扩展 的 所 有 信息 ， 例 如 每 一 个 表 重 分 布 的 详细 状态 等 。 

3) 将 当前 数据 库 中 的 所 有 表 全 部 修改 成 随机 分 布 (Distributed Randomly) ， 这 个 状态 将 会 在 第 二 阶段 一 一 表 重 分 布 的 时 候 被 修改 。 


要 开始 表 重 分 布 阶段 ， 用 户 需要 运行 gpexpand 脚 本 ， 使 用 -d (周期 ) 或 -e (结束 时 间 ) 参数 。 在 达到 指定 的 结束 时 间或 周期 之 前 ， 数 据 库 会 在 新 的 扩展 schema 中 重 分 布 所 有 的 表 数 据 。 重 分 布 其 实 是 
使 用 ALTER TABLE 命 令 将 表 恢 复 至 原先 的 分 布 字段 。 


等 到 所 有 的 表 都 已 经 重 分 布 成 功 后 ，gpextend 即 执行 完成 了 ， 表 13-1 列 举 了 gpextand 脚 本 的 参数 。 


表 13-1 gpextand 脚 本 的 参数 说 明 


-a|--analyze 在 重 分 布 表 之 后 ， 重 新 对 表 进 行 analyze， 收 集 统计 信息 

-B 并 发 数 ， 可 以 指定 同时 运行 ssh 命令 的 数量 ， 默 认 是 8， 参数 范围 是 1 ~ 128. 
如 条 在 运行 过 程 中 报 了 ssh 错误 ,例如 
ssh exchange identification: Connection closed by remote host. 
那么 就 必须 减少 这 个 并 发 数 


-c|--clean 清除 扩展 schema 

-d | --duration 执行 周期 ， 参 数 格式 为 hh:mm:ss- 

-D 指定 数据 库 名 ， 如 果 没 有 指定 ， 则 读 取 环境 变量 PGDATABASE。 数 据 库 不 能 大 
template0 或 templatel 

-e | --end 指定 结束 时 间 ， 格 式 为 YYYY-MM-DD hh:mm:ss 

-f| --hosts-file HEITA ELARA host 列表 


-i | --input <input file name> 首 定 配置 文件 ， 其 中 格式 为 : 
<hostname>:<address>:<port>:<fselocation>:<dbid>:<content>:<preferred_ 
role>:<replication port> 
如 果 有 新 增 的 文件 系统 (filespace)， 那 么 gpexpand 需要 额外 多 一 个 配置 文件 
(«input file name>.fs)， 其 格式 为 : 
filespaceOrder--filespacel name>:<filespace2 name^: ... 
dbid:«/path/for/filespacel^:-/path/for/filespace2^: ... 
dbid:—/path/for/filespacel-^:c/path/for/filespace2^: ... 
-n IR] EE SETT ESMARIE, HAUS 1-16, -ARENS mema PT X 
据 库 连 接 。 在 设置 这 个 参数 前 ， 要 确保 最 大 连接 数 max connections 这 个 参数 可 以 满 
足 同 时 进行 重 分 布 的 表 的 数目 


-r | --rollback 如 果 扩 展 数据 库 失 败 ， 那 么 可 以 使 用 这 个 参数 对 扩展 进行 回 滚 
-s|--slient 安静 模式 ， 不 会 产生 提示 

SISSE 凋 试 模式 ， 打 印 出 详细 的 执行 步 又 

-V|--novacuum 在 创建 schema 副本 时 ， 不 对 数据 字典 进行 vacuum 


使 用 gpexpand-f hosts expand 可 以 产生 配置 文件 ， 此 步骤 是 交互 性 的 ， 该 脚本 会 咨询 如 下 问题 (图 13-8 显 示 了 其 中 一 个 问题 ) 。 


Are you sure vou want to continue with this gpexpand session? Yy|Nn (defaultzN): 
y 


You must now specify a mirroring strategy for the new hosts. Spread mirroring places 
a given hosts mirrored segments each on a separate host. You must be 

adding more hosts than the number of segments per host to use this. 

Grouped mirroring places all of a given hosts segments on a single 


mirrored host. You must be adding at least 2 hosts in order to use this. 


what type of mirroring strategy would you like? 
spread |grouped (defaultezgrouped): 
> spread 


图 13-8 ”使 用 gpexpand 生 成 配置 文件 
1) 确定 是 否 要 初始 化 一 个 新 的 扩展 。 
2) 选择 哪 种 备份 策略 (Spread Mirror 或 者 Grouped Mirror) ， 本 例子 中 采用 Spread Mirror, 
3) 每 个 新 机 器 上 要 新 增多 少 个 Primary Segment， 默 认 是 0， 如 果 大 于 0， 那 么 所 有 的 hosts 节 点 上 都 会 多 出 对 应 的 Primary Segment， 本 例子 使 用 默认 值 。 
4) 输入 每 个 Primary Segment 的 数据 目录 ， 这 些 数据 目录 需要 用 户 自 己 手 工 创建 。 


hosts expand 文 件 的 内 容 如 下 : 


$ cat hosts expand 
sdw5 
sdw6 
sdw7 
sdw8 


在 回答 完 上 述 几 个 问题 之 后 ， 会 生成 一 个 名 为 gpexpand inputfile 20130721 230554 的 配置 文件 ， 这 样 ， 就 可 以 通过 这 个 配置 文件 来 扩展 数据 库 了 。 
首先 ， 确 保 数 据 库 处 于 启动 状态 ， 并 且 没 有 其 他 的 连接 


然后 运行 gpexpand 脚 本 ， 如 下 : 


$ gpexpand -i gpexpand inputfile 20130721 230554 


在 正常 情况 下 ， 执 行 过 程 如 图 13-9 所 示 。 


[INFO]:-loca] Greenplum version: 'postgres (Greenplum Database) 4.1.1.1 build 


INFO 
[INFO 
[INFO] 
[INFO] 


INFO 
INFO 


-Readying Greenplum Database for a new expansion 

-checking database testDB for unalterable tables... 

-Checking database postgres for unalterable tables... 
-Checking database templatel for unalterable tables... 
-Checking database testDB for tables with unique indexes... 

| -checking database postgres for tables with unique indexes... 
[INFO]:-Checking database templatel for tables with unique indexes... 
[INFO]:-Creating segment template 

[INFO]:-vACUUM FULL on the catalog tables 

[INFO]:-Starting copy of segment dbid 1 to location 


[inro]: -readying gpexpand schema for current expansion state 


[INFO]:-Copying postgresql.conf from existing segment into template 
[INFO]:-Copying pg hba.conf from existing segment into template 
[INFO]:-Adding new segments into template pg hba.conf 

iude --Creating schema tar file 

INFO]:-Distributing template tar file to new hosts 

[INFO]:-configuring new segments (primary) 

[INFO ]:-Cconfiguring new segments (mirror) 

nsa aae g up pg hba.conf file on original segments 

INFO]:-Copying new pg hba.conf file to original segments 

-configuring original segments 

-Cleaning up temporary template files 

-Starting Greenp lum Database in restricted mode 

-Stopping database 

-Configuring new segment filespaces 

-Cleaning up databases in new segments. 

.-Starting master in utility mode 

-&topping master in uti lity mode 

-Starting Greenplum Database 1n restricted mode 

-Creating expansion schema 

-Populating gpexpand.status detail with data from database testDB 
-Popu lating gpexpand.status detail with data from database postgres 
-Popu lating gpexpand.status detail with data from database templatel 
-Stopping Greenplum Database 

-Starting Greenplum Database 

-starting new mirror segment synchronization 


EOT TETETEEDT TEE OTL EEDI EEEE E E E EEE 


图 13-9 ”运行 gpexpand-i 脚 本 的 结果 
在 gpexpand-i 脚 本 运行 成 功 后 ， 可 以 看 到 数据 库 多 了 一 个 gpexpand 的 schema。 这 个 schema 有 两 个 表 和 一 个 视图 ， 如 表 13-2 所 示 。 


表 13-2 ”gpextand 模 式 下 的 表 和 视图 
名 F 类 型 TEE. 


gpexpand.status 保存 扩展 时 的 状态 


gpexpand.status detail 去 保存 每 个 表 的 详细 和 草 分 布 信息 ， 包 括 表 类 型 、 分 布 键 、 优 
| E 先 级 等 


倪 医 | 显示 Greenplum 扩展 的 进度 ， 剩 余 多 少 表 及 多 少 字 节 ， 如 
图 13-10 所 示 


| 


gpexpand.expansion progress 


fn. 


estDB=# select * from gpexpand.expansion, progress: 
name | value 


Tables Left | 10 


Bytes Left | 172517621760 
Estimated Time to completion | 

Estimated Expansion Rate | 

(4 rows) 


图 13-10 ”视图 expansion_ptrogtess 展 示 扩 展 的 进度 


在 运行 gpexpand-i 之 后 ， 开 始 执行 表 重 分 布 ， 运 行 下 面 的 命令 ， 执 行 过 程 中 最 消耗 时 间 的 是 所 有 数据 表 的 重 分 布 (可 以 将 gpextand 脚 本 分 布 在 几 次 数据 库 比 较 空 闪 的 时 间 点 执行 )， 开 始 进 行 表 重 分 


$ gpexpand -d 60:00:00 


之 后 gpexpand 脚 本 会 开始 对 每 个 表 进 行 重 分 布 ， 并 将 进度 打印 在 屏幕 上 。 同 时 ， 在 数据 库 中 ， 也 可 以 使 用 下 面 的 命令 查看 到 正在 运行 的 SQL， 结 果 如 图 13-11 所 示 。 


testDB-4 select * from pg stat activity; 


16992 
testDB 


GS 


-[ RECORD 3 ]---- 
datid 


current, query LER TABLE ONLY "public". testÜ SET WITH(REORGANIZE-TRUE) DISTRIBUTED BY ("a") 
waiting f 

2013-07-21 23:31:02.256287 408 

2013-07-21 23:31:01.029079408 

1?7.0.0.1 

24678 


2013-07-21 23:31:01.3870912408 


client port 
application. name 
xact start 


-十 
| 
| 
| 
| 
| 
| scutshuxue.chenxf 
| 
| 
| 
| 


图 13-11 gpexpand4& Jf] ALTER TABLE 对 原 表 进行 重 分 布 


待 所 有 的 数据 都 重 分 布 完成 后 ， 使 用 gpexpand-c 将 扩展 的 schema 删 除 。 至 此 ， 数 据 库 扩容 成 功 。 


本 章 重点 介绍 了 如 何 对 Greenplum 进 行 扩容 、 增 加 存储 空间 及 计算 性 能 ， 主 要 讲 了 两 种 方法 。 

1) 迁移 计算 节点 : 使 用 scp 或 gprecoverseg-F。 

2) 增加 计算 节点 : 使 用 gpextand 脚 本 。 这 个 涉及 表 的 重 分 布 ， 在 重 分 布 过 程 中 ， 数 据 库 的 性 能 会 急剧 下 降 。 用 户 在 扩展 的 时 候 要 注意 这 一 点 ， 合 理 安排 扩容 时 间 。 
在 增加 计算 节点 时 ， 分布 的 策略 要 考虑 到 Greenplum 的 两 种 备份 策略 ，Spreed Mirror 和 Grouped Mirror， 要 选择 适当 的 节点 分 布 方式 。 


扩容 是 一 个 影响 很 大 的 操作 ， 建 议 读者 在 扩容 之 前 ， 要 多 在 线 下 环境 测试 ， 测 试 没 问题 之 后 才 可 以 在 线 上 数据 库 中 执行 。 购 买 了 Greenplum 服 务 的 公司 ， 最 好 咨询 Greenplum 的 技术 支持 ， 协 商 确 定好 


方案 后 再 执行 。 


人 E 二 一 A m V 48 Am BA BA 1 vw E + 
f Greenplumhs 
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互联 网 领域 的 实时 计算 主要 都 是 针对 海量 数据 进行 的 。 实 时 计算 最 重要 的 一 个 功能 是 能 够 实时 响应 计算 结果 ， 一 般 要 求 为 秒 级 。 互 联网 行业 的 实时 计算 普遍 应 用 于 以 下 两 种 应 用 场景 。 
1) 数据 源 是 实时 、 不 间断 的 〈 流 数据 ) ， 要 求 对 用 户 的 响应 时 间 也 是 实时 的 。 
2) 数据 量 大 且 无 法 预 处 理 (计算 ) ， 要 求 对 用 户 的 响应 时 间 也 是 实时 的 。 


第 一 种 应 用 场景 主要 针对 互联 网 流 式 数据 处 理 ， 即 将 数据 看 做 数据 流 的 形式 来 处 理 。 例 如 ， 在 精准 广告 投放 应 用 场景 中 ， 需 要 基于 用 户 的 实时 点 击 、 实 时 查询 等 调整 推荐 算法 。 业 界 较 流行 的 方案 如 


Storm、S4 等 。 第 二 种 应 用 场景 主要 针对 数据 服务 平台 ， 给 线 上 产品 提供 计算 和 查询 服务 。 本 章 将 重点 讨论 第 二 种 应 用 场景 下 结合 Greenplum 的 一 些 实践 。 


14.1 需求 概述 

从 整体 纵向 需求 上 来 看 ， 主 要 有 如 下 几 个 层次 的 需求 ， 键 值 访问 、 筛 选 查询 、 聚 合计 算 、 关 联 分 析 。 从 横向 需求 来 看 ， 主 要 有 如 下 几 个 基本 的 需求 ， 支 持 高 并 发 、 准 实时 、 海 量 数据 、 高 可 用 /线性 可 扩 
展 。 如 图 14-1 所 示 。 

本 章 介 绍 的 Greenplum 实 时 化 方案 主要 解决 以 下 两 个 问题 。 

1) 能 够 对 海量 数据 进行 一 些 报表 计算 ， 要求 后 端 数 据 能 做 到 分 钟 级 别 的 更 新 ， 响 应 时 间 要 求 在 分 钟 以 内 。 


2) 能 够 对 海量 数据 进行 一 些 简 单 查询 ， 如 KV 查询 ,或 者 对 上 百 条 数据 进行 简单 的 汇总 等 ， 响 应 时 间 要 求 在 毫秒 级 。 


高 并 发 | 
IEEE 一 一 | 


SCR 


非 key 查 询 
—H5R 5l > 


Sum. max | 
Order by etc. » 


高 可 用 /线性 扩展 


多 表 关 联 分 析 一 一 > | | 
分 析 


图 14-1 海量 数据 实时 分 析 服务 平台 总 体 需求 


一 般 系统 都 会 将 这 两 者 分 开 ， 前 者 对 应 一 些 报表 数据 库 ， 用 于 分 析 的 ， 后 者 一 般 采 用 NoSQL, 或 者 对 MySQL 进 行 分 库 分 表 。 本 章 结合 Greenplum 探 究 一 种 综合 方案 。 


14.2 ”典型 方案 


目前 ， 在 海量 数据 实时 分 析 服 务 平台 的 典型 方案 可 分 为 如 下 几 类 。 
1) NoSQL 系 列 。 

2) 分 布 式 数据 库 / 集 群 。 

3) 分 表 分 库 。 


各 分 类 典型 的 解决 方案 如 图 14-2 所 示 。 


分 库 分 表 
Nosql 桑 列 
1)MysqI*Tdadl 
2)Mysql*Cobar 
3)Postgresql*pl/proxy 


1)Hbase 
2)Mongodb 


分 布 式 数据 库 / 集 群 


1)rac 
2)greenplum 


图 14-2 ”海量 数据 实时 分 析 服 务 平台 典型 架构 分 类 
14.2.1 NoSQL 


NoSQL 不 再 使 用 SQL 查 询 语言 ， 而 是 使 用 自己 特有 的 查询 语言 。 一 般 都 是 开源 项 目 且 为 分 布 式 集群 而 定制 开发 的 ， 总 体 基 于 半 结 构 化 或 弱 结 构 化 的 数据 模型 设计 。NoSQL 方 案 大 体 上 可 分 如 下 几 类 ，。 
(1) 键 值 (Key-Value) 数据 库 


键 值 数据 库 就 像 在 传统 编程 语言 中 使 用 的 哈 希 表 。 你 可 以 通过 key 来 添加 、 查 询 或 者 删除 数据 。 典 型 产品 如 Redis、Memcached、Riak、Membase 等 。 比 较 适 用 的 场景 包括 存储 用 户 信息 (如 会 话 信 
息 、 配 置 文件 、 参 数 、 购 物 车 等 ) 。 但 是 在 基于 值 查询 的 场合 ， 键 值 数据 库 不 是 很 适合 (二 级 索引 不 完善 ) ， 事 务 支 持 不 好 ， 数 据 间 关联 关系 难以 表达 。 


(2) 文档 数据 库 


文档 数据 库 会 将 数据 以 文档 的 形式 储存 。 每 个 文档 都 是 自 包含 的 数据 单元 ， 是 一 系列 数据 项 的 集合 。 每 个 数据 项 都 有 一 个 名 称 及 对 应 的 值 ， 此 对 应 值 既 可 以 是 简单 的 数据 类 型 ， 如 字符 串 、 数 字 和 日 期 
等 ， 也 可 以 是 复杂 的 类 型 ， 如 有 序列 表 和 关联 对 象 。 数 据 存 储 的 最 小 单位 是 文档 ， 同 一 个 表 中 存储 的 文档 属性 可 以 是 不 同 的 ， 数 据 可 以 使 用 XML、jJSON 或 JSONB 等 多 种 形式 存储 。 典 型 的 文档 数据 库 包 括 
Mongodb、CouchDB 等 。 


(3) 图 数据 库 


图 数据 库 允 许 我 们 将 数据 以 图 的 方式 储存 。 实 体会 作为 项 点 ， 而 实体 之 间 的 关系 则 会 作为 边 。 典 型 的 图 数据 库 包 括 Neo 和 J、OrientDB， 在 任务 调度 依赖 、 推 荐 引擎 、 社 交 关 系 等 方面 有 较为 常用 的 场 


(4) 对 象 数据 库 

对 象 数据 库 管 理 系统 为 面向 对 象 编程 语言 增加 了 持久 的 概念 ， 具 备 复杂 的 对 象 模型 、 快 速 键 值 访问 。 典 型 的 对 象 数据 库 包括 Gemstone、Objectivity。 

(5) BigTable 类 型 数据 库 

BigTable 类 型 数据 库 是 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 其 中 ， 用 户 人 存储 数据 行 在 一 个 表 里 ， 一 个 数据 行 拥 有 一 个 可 选择 的 键 和 任意 数量 的 列 。 由 于 表 是 疏松 的 存储 的 ， 因 此 用 户 可 以 给 行 定 义 各 种 不 


同 的 列 。BigTable 类 型 数据 库 主 要 用 于 需要 随机 访问 ， 实 时 读 写 的 场景 ， 具 备 处 理 大 数据 、 高 负载 、 高 可 用 等 特点 。 典 型 的 BigTable 类 型 数据 库 包括 Hbase、Cassandra、Hypertable 等 。 


14.2.2 ”分布 式 数据 库 / 集 群 


分 布 式 数据 库 / 集 群 基于 海量 信息 并 行 处 理 结构 (MPP) ， 应 用 程序 通过 Master 主 机 访问 数据 ， 每 一 个 存储 节点 都 是 独立 数据 库 (无 共享 ) ， 存 储 节点 间 、 存 储 节点 和 Master 主 机 间 通 过 高 速 网 络 交换 
数据 ， 读 写 等 数据 库 操作 和 传统 关系 型 数据 库 无 异 ， 数 据 分 布 在 所 有 的 数据 节点 上 ， 每 个 节点 只 需要 处 理 一 部 分 数据 。 具 备 高 扩展 性 、 高 可 用 性 、 高 性 能 、 易 用 性 等 特点 。 典 型 的 分 布 式 数据 库 /集群 包括 如 
Ts 


- Teradata 


: Netezza 


: Vertica 
: Greenplum 


: Aster Data 


MPP 是 将 任务 并 行 地 分 散 到 多 个 服务 器 和 节点 上 ， 在 每 个 节点 计算 完成 后 ， 将 各 自 部 分 的 结果 汇总 在 一 起 得 到 最 终 的 结果 。 例 如 ， 要 查询 销售 最 好 的 10 件 商品 ， 每 个 节点 都 要 先 计算 出 自己 销售 最 好 的 
10 件 商品 ， 然 后 向 上 汇总 。 如 果 是 两 个 表 的 连接 查询 ， 可 能 会 涉及 节点 之 间 计 算 的 中 间 过 程 如 何 传递 数据 的 问题 : 是 将 大 表 和 小 表 都 平均 分 布 ， 然 后 在 节点 计算 的 时 候 将 得 到 的 结果 汇总 (可 能 要 两 次 汇 
总 ) ， 还 是 将 大 表 平 均 分 布 ， 将 小 表 的 数据 传输 给 每 个 节点 ， 从 而 只 需要 一 次 汇总 。 不 同 的 产品 在 处 理 这 些 细节 方面 各 有 所 不 同 。 


14.2[3 ”分 表 分 库 


分 表 分 库 方 案 是 对 数据 进行 水 平 拆 分 以 降低 单 库 的 压力 ， 并 且 实 现 高 效 且 相对 透明 的 来 屏蔽 掉 水 平 拆 分 的 细节 。 总 体 实 现 原理 是 借鉴 分 布 式 数据 库 集 群 的 思路 ， 将 数据 分 散 以 满足 高 并 发 、 大 数据 量 、 
高 可 用 的 需求 。 业 界 比较 典型 的 分 表 分 库 方 案 有 Cobar、TDDL、Ameoba、DDB。 这 里 我 们 简单 介绍 一 下 Cobar。 


Cobar 是 阿里 巴巴 开源 的 一 种 关系 型 数据 的 分 布 式 处 理 系统 ， 在 分 布 式 的 环境 下 它 看 上 去 像 传统 数据 库 一 样 提 供 海量 数据 服务 。 


Cobar 中 间 件 以 Proxy 的 形式 位 于 前 台 应 用 和 实际 数据 库 之 间 ， 对 前 台 开放 的 接口 是 MySQL 通 信 协 议 。 将 前 台 SQL 语 句 变更 并 按照 数据 分 布 规则 转发 到 合适 的 后 台数 据 分 库 ， 再 合并 返回 结果 。Cobar 除 
了 支持 MySQL、Oracle， 还 可 以 很 便捷 地 扩展 支持 PostgreSsQL 等 数据 库 。Cobar 应 用 逻辑 架构 如 图 14-3 所 示 。 


Cobar Cluster 


MySQL Instances (masters sl: 


图 14-3 Cobar M 3E E AR] 


应 用 程序 访问 Cobar 集 群 ， 通 过 负载 均衡 连接 至 其 中 一 个 Cobar Server (集群 中 多 个 Cobar Server 对 等 无 状态 ， 可 根据 需要 线性 扩展 ) ， 再 根据 Cobar Server 中 配置 的 路 由 规则 ， 定 位 至 其 中 一 个 
MySQL 实 例 ， 返 回 期 望 的 结果 。Cobar 典 型 应 用 方式 如 图 14-4 所 示 。 


通过 Cobar 提 供 一 个 名 为 test 的 数据 库 ， 其 中 包含 t1，t2 两 张 表 。 后 台 有 3 个 MySQL 实 例 (ip: port) 为 其 提供 服务 ， 分 别 为 A、B、C。t1 表 的 数据 可 放置 在 实例 A 中 ，t2 表 的 数据 水 平 拆 成 四 份 并 在 实 
例 B 和 C 中 各 放 两 份 。t2 表 的 数据 具备 HA 功能 ， 即 B 或 者 C 实 例 其 中 一 个 出 现 故 障 ， 不 影响 使 用 且 可 提供 完整 的 数据 服务 。 
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通过 前 面 三 小 节 的 分 析 ， 我 们 不 难看 出 每 个 方案 都 有 各 自 的 侧重 点 。NoSQL 的 优势 主要 在 键 值 查询 、 高 并 发 、 高 可 用 、 高 可 扩展 性 。 分 布 式 数据 库 的 优势 主要 在 于 查询 功能 强大 、 技 术 方 案 成 熟 、 天 然 
支持 聚合 计算 和 关联 分 析 ， 不 过 在 可 用 性 、 可 扩展 性 、 并 发 性 及 查询 性 能 方面 略 差 。 而 分 表 分 库 是 介 于 NoSQL 和 分 布 式 数据 库 方 案 之 间 的 一 种 折 中 方案 。 在 满足 线性 扩展 、 高 可 用 、 海 量 数据 、 准 实时 等 需 
求 的 基础 上 ， 如 果 业 务 需求 仅 需 键 值 查询 ，NoSQL 方 案 将 会 是 不 错 的 选择 。 如 果 还 需要 支持 大 量 且 复杂 的 筛选 查询 ， 分 表 分 库 方 案 可 满足 需求 。 如 果 还 需要 一 些 简单 的 聚合 计算 ， 我 们 可 以 在 分 表 分 库 方案 
增加 接口 层 计 算 框架 即 可 。 如 果 同 时 还 需要 支持 多 表 关 联 分 析 ， 分 布 式 数 据 库 加 上 Cobar 或 Tddl 将 是 一 个 可 尝试 的 方案 。 功 能 需求 看 加 图 对 应 解决 方案 如 图 14-5 所 示 。 


图 14-5 ”功能 需求 又 加 图 对 应 解决 方案 


143 ”基于 Greenplum 的 混合 架构 


通过 前 面 章节 的 内 容 了 解 到 ， 在 Greenplum 进 行 数据 读 取 时 ， 所 有 流量 都 会 经 过 Master 节 点 ， 扩 展 性 较 差 ， 无 法 支撑 高 并 发 请 求 。 而 且 早期 版 本 的 Greenplum 在 处 理 一 个 简单 的 基于 主键 的 查询 ， 所 
有 数据 节点 都 会 产生 一 次 查询 请 求 ， 同 样 无 法 支撑 高 并 发 请 求 。 因 此 ， 结 合 Greenplum 及 分 表 分 库 二 者 的 优势 ， 我 们 在 实际 生产 中 应 用 了 Greenplum+Cobar 这 种 架构 ， 如 图 14-6 所 示 。 


图 14-6 ”Greenplum+Cobatr 海 量 数据 实时 分 析 服 务 平 台 


Qua 此 套 架 构 我 们 在 Greenplum3.3.7+cobar1.0.9 版 本 中 测试 通过 ， 由 于 Greenpum4.0 之 后 ，Mirror Segment 无 法 链接 ， 所 以 只 能 采用 旧版 本 的 Greenplum 才 能 实践 。 


14.3.1 架构 分 析 


如 图 14-6 所 示 ，Greenplum 数 据 节点 自身 是 Master-Slave 结 构 ， 主 备 (Copyl. Copy2) 各 24 个 数据 节点 (PostgreSQL) ， 我 们 还 引入 第 三 组 备份 (Copy3) 。 多 表 关 联 的 请 求 通过 Greenplum 
Master 节 点 ， 负 载 压 力主 要 集中 在 集群 Copy1 上 。 高 并 发 的 简单 查询 通过 Cobar 来 完成 ， 负 载 压 力主 要 集中 在 集群 Copy3 上 。OLAP 和 OLTP 的 请 求 互相 不 干扰 ， 保 证 了 集群 的 稳定 及 高 可 用 。Copy2 作 为 
Copy1 和 Copy3 公 用 的 备份 集群 ， 当 Copy1 集 群 有 节点 死机 时 ，Greenplum 自 动 切换 到 备用 集群 节点 ， 当 Copy3 集 群 有 节点 死机 时 ，Cobar 也 会 自动 切换 到 备用 集群 节点 。 


对 于 一 些 有 实时 要 求 的 表 ， 后 人 台 有 一 个 数据 更 新 脚本 ， 做 到 了 分 钟 级 别 的 更 新 ， 通 过 对 MySQL 数 据 库 binlog 的 解析 ， 将 MySQL 的 变更 数据 每 5 分 钟 往 上 述 的 三 组 备份 进行 数据 合并 ， 保 证 数据 的 新 鲜 度 
为 5 分 钟 。 对 于 实时 性 要 求 不 高 的 表 ， 则 每 天 更 新 一 次 。 


14.3.2 ”实施 要 点 


(1) 数据 切 分 规则 


由 于 Cobar 切 分 规则 和 Greenplum 数 据 分 片 规则 不 一 致 ， 如 果 按 照 Greenplum 自 身 的 分 片 规 则 ，Cobar 将 不 能 正常 定位 数据 节点 并 返回 准确 结果 。 如 果 按 照 Cobar 切 分 规则 ， 将 会 导致 Greenplum 数 据 
错误 。 我 们 可 以 修改 Cobar 切 分 算法 ， 使 其 和 Greenplum 算 法 保持 一 致 。 但 是 在 实际 应 用 中 ， 我 们 无 法 获取 Greenplum 切 分 算法 的 实现 细节 ， 所 以 我 们 在 Greenplum 建 表 时 采用 DISTRIBUTED 
RANDOMLY， 这 样 在 Master 进 行 计算 的 时 候 ， 数 据 会 全 部 重 分 布 ， 保 证 数据 的 准确 性 。 


(2) 数据 导入 
由 于 切 分 算法 需要 和 Cobar 保 持 一 致 ， 因 此 我 们 需要 将 待 导 入 数据 按照 切 分 算法 预先 切割 ， 再 导入 3 个 PostgreSQL 集 群 ， 数 据 导入 脚本 分 为 5 分 钟 级 别 准 实时 导入 还 有 T+ 1 级 别 每 天 导入 。 
(3) 实时 数据 更 新 


由 于 PostgreSQL 的 MVCC 机 制 ， 在 实时 数据 更 新 的 场景 ， 频 繁 的 更 新 操作 将 会 导致 数据 查询 越 来 越 慢 。 同 时 ， 在 高 并 发 更 新 操作 环境 下 ， 更 新 操作 性 能 消耗 巨大 ， 严 重 影响 实时 数据 处 理性 能 。 在 实际 
环境 下 ， 可 考虑 采用 Append only 的 方式 〈 即 不 做 更 新 ， 只 做 插入 ) ， 在 查询 数据 时 通过 通用 的 分 析 函 数 获取 数据 的 最 新 版 本 ， 然 后 定期 做 去 重 操作 。 


(4) 在 线 DDL 


数据 库 的 在 线 加 字段 、 在 线 Truncate、 在 线 Rename 等 操作 ， 在 常规 情况 下 都 会 锁 表 ， 影 响 实 时 的 数据 查询 。 在 实际 应 用 环境 下 ， 在 线 加 字段 可 通过 修改 pg_attribute 数 据 字 典 手 动 插入 字段 信息 ， 在 
线 Truncate 表 可 通过 修改 pg_class 及 pg_depend 数 据 字 典 来 交换 临时 表 和 正式 表 对 应 的 底层 数据 文件 。 在 线 Rename 操 作 ， 可 通过 修改 pg_class 及 pg_depend 数 据 字典 来 交换 临时 表 和 正式 表 对 应 的 底层 数 
据 文 件 。 


(5) PostgreSQL 无 法 强制 Cache 特 定 表 ， 致 使 低频 率 访问 时 效率 较 差 


可 通过 Mmap 技 术 将 表 对 应 的 数据 文件 在 操作 系统 强制 缓存 。 
(6) F5 硬 件 负载 均衡 


F5 是 一 种 实现 负载 均衡 的 硬件 ， 它 通过 硬件 的 方式 统一 接收 全 部 请 求 ， 然 后 按照 设 定好 的 算法 将 这 些 请 求 分 配给 这 个 负载 均衡 组 中 的 所 有 成 员 。 如 果 没 有 硬件 负载 均衡 设备 ， 也 可 以 采用 Nginx、LVS 
等 软 负载 均衡 设备 ， 它 们 通过 Keepalived 或 Heartbeat 等 方法 实现 软 负载 均衡 的 高 可 用 。 
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本 章 首先 从 需求 上 简单 进行 了 概述 ， 包 括 高 并 发 、 准 实时 、 海 量 数 据 、 高 可 用 /线性 扩展 等 基础 性 需求 ， 以 及 键 值 访问 、 筛 选 查 询 、 聚 合计 算 、 关 联 分 析 四 个 层次 的 高 级 需求 。 其 次 介绍 了 NoSQL、 分 
布 式 数 据 库 / 集 群 、 分 表 分 库 方案 人 在 海量 数据 实时 分 析 服 务 平台 应 用 场景 下 的 优 劣 及 侧重 点 。 最 后 介绍 了 基于 Greenplum 的 混合 架构 方案 及 实际 应 用 过 程 中 的 一 些 实施 要 点 。 实 际 需求 及 应 用 场景 干 差 万 
别 ， 读 者 在 方案 选 型 及 架构 设计 过 程 中 还 需 结合 自身 实际 的 场景 进行 调整 及 优化 ， 适 合 自己 的 才 是 最 好 的 。 


第 15 章 ”使 用 Greenplum 的 营 见 报错 及 小 技巧 


在 使 用 一 个 工具 的 时 候 ， 我 们 往往 有 需要 注意 很 多 细节 的 东西 ， 通 过 对 一 些 细节 的 了 解 ， 可 以 更 加 了 解 工具 的 用 户 以 及 背后 的 原理 。 本 章 将 介绍 Greenplum 的 一 些 常见 的 数据 库 报 错 ， 以 及 一 些 使 用 小 
技巧 ， 希 望 读 者 在 使 用 Greenplum 的 时 候 更 加 得 心 应 手 ， 遇 到 报错 时 不 再 不 知 所 措 。 


15.1 分 析 常 见报 错 
下 面 介 绍 一 些 Greenplum 中 常见 的 报错 ， 一 般 的 报错 信息 从 报错 原因 上 就 可 以 清楚 地 了 解 ， 但 是 有 一 些 报 错 信息 比较 难以 理解 。 面 对 报错 ， 先 不 要 慌 ， 仔 细 阅 读 报错 的 信息 ， 如 果 报 错 信息 不 明显 ， 要 
结合 SQL 进行 分 析 ， 是 SQL 本 身 语 法 的 问题 还 是 理解 上 有 误 。 


很 多 报错 可 能 会 与 分 布 式 数据 库 有 关 ， 第 一 次 使 用 分 布 式 数据 库 的 用 户 可 能 会 忽略 这 个 问题 ， 如 果 用 普通 的 单机 数据 库 的 观点 来 分 析 ， 就 可 能 很 难 理解 报错 的 内 容 。 比 如 ，Master 和 Segment 数 据 字典 
不 一 致 ， 在 报错 时 一 直 在 Master 上 查 相关 的 数据 字典 都 没有 发 现 问题 ， 实 际 上 是 Segment 上 的 数据 字典 不 一 致 ， 如 果 直 接 在 segment 上 分 析 就 很 容易 找到 问题 ， 读 者 在 遇 到 类 似 的 问题 的 时 候 要 多 加 注 
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15.1.1 ” 找 不 到 类 型 705 对 应 的 操作 符 


先 来 看 下 面 报 错 的 SQL， 一 个 简单 的 建 表 语 句 : 


B=# create table type error 
testDB-4 as select 'a' as id 
testDB-4 distributed by (id); 

ERROR: no equality operator for typid 705 (cdbmutate.c:1187) 


初 看 这 个 报错 有 点 莫名 其 妙 ，typid 为 705 的 数据 类 型 没有 “等 于 ”按钮 操作 符 。 我 们 先 来 看 下 705 是 什么 数据 类 型 ， 通 过 ::regtype 可 以 很 方便 地 查询 类 型 名 ( 见 第 4.1 节 介绍 ) : 


testDB-4 select 705::regtype; 
regtype 


unknown 
(1 row) 


typid 为 705 的 数据 类 型 是 unknown， 难 怪 没有 “等 号 ”按钮 操作 符 。 为 什么 会 有 unknown 数 据 类 型 呢 ? 仔细 看 下 SQL， 就 会 帮 现 字符 串 'a 并 没有 制定 数据 类 型 ， 那 么 a 的 类 型 可 能 是 varchar， 也 可 能 


是 char， 也 有 可 能 是 text 类 。 不 显示 指定 数据 类 型 ， 数 据 库 就 无 法 识别 ， 所 以 就 将 'a 制定 成 了 unknown 数 据 类 型 。 


unkown 类 型 性 么 来 的 ， 我 们 已 经 知道 了 ， 但 是 为 什么 unkown 数 据 类 型 需要 “等 号 ”按钮 操作 符 呢 ?仔细 看 一 下 会 帮 现 id 这 个 字段 是 分 布 键 ， 分 布 键 需要 计算 hash 值 ， 然 后 将 这 个 值 分 发 到 相应 的 节 
点 上 ， 在 计算 hash 值 过 程 中 ,调用 了 “等 号 ”按钮 操作 符 ， 由 于 unkown 没 有 这 个 操作 符 ， 所 以 报 这 个 错 。 


如 果 去 掉 分 布 键 ， 改 成 随机 分 布 会 怎么 样 ? 


testDB=# create table type error 


B-# as select '1' as id 
B-4 distributed randomly; 


WARNING: column "id" has type "unknown" 
DETAIL:  Proceeding with relation creation anyway. 
SELECT 1 


testDB-4 Nd type error 
Table "public.type error" 


Column | Type Modifiers 
EPE 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 
id | unknown 

Distributed randomly 


建 表 成 功 了 ， 但 是 会 有 一 个 WARNING， 告 诉 用 户 id 的 类 型 为 unkown。 在 不 指定 分 布 键 的 情况 下 ， 这 个 表 默 认为 随机 分 布 的 表 ， 就 不 需要 计算 hash 值 ， 也 就 不 用 调用 “等 号 ”按钮 操作 符 ， 所 以 建 表 
成 功 。 


解决 方法 为 : 对 id 字段 指定 数据 类 型 。 


# create table type error 
-# as select '1'::varchar(16) as id 
# distributed by (id); 


建 表 成 功 ， 没 有 任何 异常 。 


15.1.2 ”SQL 占用 的 资源 超过 了 资源 队列 限制 
当前 用 户 执行 的 SQL 超过 了 资源 队列 限制 的 大 小 ， 会 报 如 下 的 错 : 


statement requires more resources than resource queue allows 


此 时 SQL 不 能 执行 ， 出 现 这 个 报错 ， 一 般 是 SQL 写 得 有 问题 ， 检 查 下 是 否 SQL 过 于 复杂 ， 或 者 产生 了 笛 卡 尔 积 。 解 决 方法 如 下 。 
1) 增加 该 用 户 所 在 资源 队列 的 大 小 限制 。 

2) 使 用 超级 用 户 执行 该 SQL， 超 级 用 户 没有 资源 队列 的 限制 。 

3) 改写 SQL， 将 复杂 的 SQL 拆 分 成 多 个 小 SQL 执行 ， 减 少 一 次 SQL 的 消耗 。 


4) 检查 SQL 是 否 正 确 ， 是 否 出 现 了 笛 卡 尔 积 等 非常 消耗 资源 的 操作 。 


15.1.3 ” 自 定义 函数 不 能 在 Segment 上 执行 


当 自 定义 函数 从 tbl test func 表 中 查询 数据 时 报错 : 


function cannot execute on segment because it accesses relation "public. tbl test func 


其 中 ，tbl test func 建 表 语句 如 下 : 


create table public.tbl test func( 
col] integer 
; Co12 integer 
)Distributed by (coll); 


这 个 自 定 义 的 函数 如 下 : 


CREATE OR REPLACE FUNCTION testfunc(pararegistno varchar) 
RETURNS varchar AS 

SBODYS 

declare 

id varchar; 


str varchar; 
begin 
str:-''; 
for id in select coll from tbl test func limit 10 loop 
str := str|lid; 
end loop; 
return str; 
end 
SBODYS 


LANGUAGE plpgsql VOLATILE; 


单独 执行 SQL 的 时 候 ， 没 有 问题 : 


testDB-4 select testfunc('') ; 


35719213941535557 
(1 row) 


当 从 一 张 表 中 查询 的 时 候 ， 报 错 : 


testDB-4 select testfunc(coll::varchar) from testl; 
ERROR: function cannot execute on segment because it accesses relation "public. tbl test func" (functions.c:150) (seg2 slicel sdw2:33000 pid-6966) (cdbdisp.c:1457) 
DETAIL: 


SOL statement " select coll from tbl test func limit 10" 
PL/pgSQL function "testfunc" line 6 at for over select rows 


ft£Greenplumrp, frtSegment E, AA EP EN ERTA, AHAAA ASI Segment Ezsí;, &SegmentEL GEB Red, ERARE, fSSUBSAROEZNSESUT- E S BB 
数据 ， 会 造成 数据 异常 ， 所 以 Greenplum 不 支持 在 函数 中 Segment 上 操作 用 户 数据 表 。 但 是 数据 字典 是 可 以 的 ， 因 为 数据 字典 在 每 个 egment 上 都 有 一 份 全 量 数据 ， 不 会 造成 数据 异常 。 把 上 面 函 数 中 的 
表 tbl test func 换 成 pg_class， 这 个 SQL 就 能 执行 成 功 。 


15.14” 子 查询 没有 加 别名 


当 SQL 中 的 子 查询 中 忘记 加 别名 时 会 报 如 下 错误 : 


subquery in FROM must have an alias 


如 下 面 这 个 SQL 为 : 


select * from (select * from test1); 


这 个 是 很 普通 的 数据 库 报错 ， 在 子 查 询 后 面 加 上 一 个 别名 就 可 以 解决 报错 ， 如 下 : 


select * from (select * from testl)t; 


15.1.5 “字段 名 有 层 尺 


执行 下 面 这 个 简单 的 SQL: 


select coll from testl a,testl b where a.coll-b.coll; 


此 时 会 有 如 下 报错 : 


column reference "coll" is ambiguous 


报错 的 意思 是 ， 字 段 col1 是 含糊 不 清 的 。 这 是 对 两 张 表 进行 关联 ， 这 两 张 表 都 有 名 为 col1 的 字段 ， 但 是 在 查询 的 时 人 息 ，col1 没 有 指定 是 哪 张 表 的 ， 产 生 了 歧义 ， 所 以 报错 。 


要 解决 报错 只 需 指 定 col1 是 哪 一 个 表 的 字段 即 可 ，SQL 修 改 为 : 


select a.coll from testl a,testl b where a.coll-b.coll; 


15.1.6 “字段 重 名 


执行 如 下 SQL: 


create table test3 as 
select * 
from testl a,testl b 
where a.coll-b.coll; 


会 有 如 下 报错 : 


column name "coll" is duplicated 


这 是 因为 在 表 test1 和 表 test2 中 都 有 名 为 col1 的 字段 ， 需 要 在 select 中 将 同名 的 字段 去 掉 或 重 命 


create table test3 as 

select a.coll as a coll,b.coll as b coll 
from testl a,testl b 

where a.coll-b.coll; 


15.1.7 gpfdistiBix: 无 法 读 取 文件 


使 用 gpfdist 读 取 外 部 表 时 ， 报 错 : 


gpfdist error - cannot read file 


这 个 报错 的 含义 是 外 部 表 错 误 ， 读 取 文 件 失败 。 这 个 报错 表示 一 般 的 数据 文件 已 经 损坏 了 ， 需 要 重新 初始 化 数据 文件 ， 或 者 通过 其 他 第 三 方 工具 修复 该 文件 。 
接 下 来 列举 几 个 外 部 表 相 关 的 报错 。 


1) gpfdist 中 的 URL 的 个 数 超过 了 Segment 的 个 数 ， 报 错 信息 如 下 : 


testDB-4 CREATE EXTERNAL TABLE gpfdist error ( 

testDB(f all value text i 

testDB (4 ) 

testDB-4 LOCATION ('gpfdist://10.20.151.7:8081/00.dat', 
testDB(4* 'gpfdist://10.20.151.7:8081/01.dat', 

testDB(# 'gpfdist://10.20.151.7:8081/02.dat' 

testDB(# 'gpfdist://10.20.151.7:8081/03.dat', 

LestDB (# 'gpfdist://10.20.151.7:8081/04.dat', 

testDB (# 'gpfdist://10.20.151.7:8081/05.dat', 

testDB (# 'gpfdist://10.20.151.7:8081/06.dat', 

testDB (# 'gpfdist://10.20.151.7:8081/07.dat"') 

testDB-4 FORMAT 'TEXT' (DELIMITER ',' null as '' ESCAPE 'off'); 
CREATE EXTERNAL TABLE 

Time: 444.900 ms 

testDB-$ select * from gpfdist error; 

ERROR: There are mor xternal files (URLs) than primary segments that can read them. Found 8 URLs and 6 primary segments. 


URL 的 个 数 不 能 超过 segment 的 个 数 ， 上 面 的 外 部 表 有 8 个 URL， 而 Segment 只 有 6 个 ， 所 以 报错 。 解 决 方法 是 : 减少 URL 个 数 (可 以 在 URL 上 使 用 通配符 或 正则 表达 匹配 ) 。 


CREATE EXTERNAL TABLE gpfdist correct ( 
all value text 


LOCATION ('gpfdist://10.20.151.7:8081/0[0-7] .dat') 
FORMAT 'TEXT' (DELIMITER ',' null as '' ESCAPE 'off'); 


2) gpfdist 所 在 机 器 的 gpfdist 服 务 没 有 启动 ， 需 要 重新 启动 下 该 服务 ， 一 般 报错 信息 如 下 : 


ERROR: connection with gpfdist failed for gpfdist://10.20.151.5:8080/1.dat.... 


3) 文件 不 存在 的 报错 信息 如 下 : 


ERROR: http response code 404 from gpfdist (gpfdist://10.20.151.7:8081/not exists.dat): HTTP/1.0 404 file not found (url.c:279) 


15.1.8 ”事务 被 中 止 


在 执行 SQL 时 ， 偶 尔 会 报 如 下 的 错误 : 


current transaction is aborted, commands ignored until end of transaction block 


该 错误 表示 ， 当 前 事务 被 终止 ， 执 行 的 命令 被 数据 库 回 滚 ， 一 般 是 事务 中 有 SQL 执行 报错 ， 导 致 当前 事务 回 滚 ， 如 果 不 是 SQL 的 问题 ， 可 能 是 网 络 问题 ， 或 者 Greenplum 太 慢 导 致 的 系统 不 稳定 ， 一 般 
重新 运行 即 可 。 


15.1.9 ”网 络 异常 错误 


在 执行 SQL 时 ， 偶 尔 会 报 如 下 的 错误 : 


from seg6 slicel sdw3-1:30002 pid-1690: server closed the connection unexpectedly 


Error on receive 


子 节点 执行 报错 ， 服 务 连接 异常 终止 ， 可 以 重新 运行 试 坛 。 如 果 不 能 解决 问题 ， 则 可 能 segment 上 出 现 了 问题 ， 要 检查 Segment 的 日 志文 件 进行 问题 排查 ， 也 有 可 能 是 因为 SQL 中 的 某 个 操作 ， 如 自 定 


义 国 数 等 触 友 了 Greenplum 的 Bug， 导 致 在 segment 上 这 个 SQL 中 断 异 常 。 


15.1.10 无 法 删除 表 


在 删除 表 的 时 候 ， 报 错 : 


(segl sdw1-2:30001 pid-22093)" 


cannot drop table v xxx because other objects depend on it 


在 子 节点 上 有 其 他 对 象 依赖 于 这 个 表 ， 如 果 在 Master 上 这 个 表 已 经 删 掉 ， 那 么 可 能 是 Master 与 Segment 节 点 数据 不 一 臻 导致 的 ， 可 以 手工 到 SEGMENT 上 查询 这 个 表 ， 依 赖 关 系 在 数据 字典 
pg_depend 中 可 以 找到 。 
在 章节 4.7.6 查 询 表 上 的 视图 中 ， 介 绍 了 如 何在 pg_depend 上 建立 视图 ， 可 以 快速 查询 视图 依赖 的 问题 ， 读 者 遇 到 该 问题 ， 利 用 这 个 视图 可 以 很 方便 地 查询 ， 在 Segment 上 找 出 对 应 的 依赖 关系 ， 并 把 


对 应 的 视图 删除 掉 。 
15.1.11 内 和 存 不 足 


内 存 不 足 报 错 : 


insufficient memory reserved for statement (memquota.c:228) 


可 能 是 当前 系统 运行 了 太 多 SQL， 或 者 是 某 一 个 SQL 消耗 太 大 ， 占 用 了 大 量 的 内 存 ， 导 致 其 他 SQL 运行 报错 。 
如 何 找 出 使 用 内 存 过 大 的 SQL 呢 ? 由 于 Greenplum 没 有 类 似 的 内 存 检测 工具 ， 一 般 的 做 法 是 看 哪个 SQL 执行 的 时 间 比 较 长 ， 一 般 消耗 内 存 大 的 ， 执 行 时 间 也 相对 比较 长 。 或 者 去 一 台 Segment 机 器 上 看 
下 哪个 进程 占用 的 内 存 比较 大 ， 然 后 再 通过 all_ seg sql (在 10.6 节 中 介绍 ) 找 出 这 个 进程 号 对 应 的 SQL。 


15.1.12 ”文件 名 在 pg_class 中 已 存在 


在 truncate 表 的 时 候 ， 报 错 如 下 : 


relfilenode 124451009 already in use in "pg class" (catalog.c:1130) 


这 个 报错 在 一 般 情况 下 不 会 产生 ， 在 系统 忙 的 时 候 偶尔 会 出 现 ， 这 是 Greenplum 还 不 完善 的 地 方 。 出 现 的 场景 为 : 在 创建 或 截取 表 的 时 候 ， 需 要 重新 生成 pg_class 的 relfilenode 字 段 的 数值 ， 在 生成 后 
提交 时 会 发 现 pg_class 中 这 个 relfilenode 已 经 被 占用 了 ， 所 以 就 报 出 这 个 错 。 一 般 重新 运行 就 可 以 解决 这 个 报错 。 


relfilenode 和 oid 一 样 ， 共 用 同一 个 序列 ， 这 个 序列 的 值 可 以 通过 pg_highest_oid 函 数 来 查询 。 


testDB=# select pg highest oid(); 
pg highest oid 


15.1.13 ”不 能 对 分 布 键 执行 Update 


对 表 进 行 update 的 时 候 报错 : 


E statement that updates the distribution columns 


ERROR: Cannot parallelize an UPDAT! 


分 布 键 不 能 被 更 新 ， 因 为 这 会 导致 数据 重 分 布 ， 而 Greenplum 4.1 还 不 支持 这 个 操作 。 如 果 分 布 键 一 定 要 更 新 ， 解 决 办 法 就 是 新 建 一 张 表 ， 然 后 将 修改 后 的 数据 导入 新 表 中 ， 从 而 实现 update 的 操作 。 


或 者 先 备份 数据 ， 然 后 删 掉 要 更 新 的 数据 ， 之 后 再 插入 修改 后 的 数据 。 


15.1.14 网络 错误 


网 络 错误 消息 解析 错误 : 


from 1276990" 


Interconnect error parsing message (seg25 sdw15-2:30001 pid-9943)","tcSize 25197 > max 8192 header 4 processed 5966/8192 


这 是 Greenplum 本 身 某 些 设计 不 完善 导致 的 ， 在 系统 繁忙 或 者 网 络 不 稳定 的 时 候 比 较 容易 发 生 ， 一 般 重 运行 即 可 。 


15.1.15 无 法 找到 数据 文件 


数据 库 异 常 时 候 会 发 生 这 个 报错 : 


could not open relation 1663/16384/xxxxx 
在 数据 库 中 ， 对 应 的 数据 文件 已 经 不 存在 了 (其 中 1663 是 tablespace 的 OID 在 pg_tablespace 中 通过 OID; 而 16384 是 数据 库 的 OID， 记 录 在 pg_database 中 ; xxxxx 则 是 文件 的 ID， 对 应 pg_class 中 的 
relfilenode 字 段 ) 。 


发 生 这 种 报错 的 情况 有 两 种 。 


1) 数据 库 中 数据 文件 于 了， 在 数据 库 层面 无 法 恢复 这 个 文件 ， 可 以 尝试 利用 第 三 方 数据 恢复 工具 恢复 数据 文件 。 如 果 无 法 恢复 ， 则 只 能 重建 表 ， 然 后 将 数据 重新 加 载 。 


不 里 


2) 数据 字典 异常 ， 数 据 文件 存在 ， 但 是 数据 字典 中 的 relfilenode 与 文件 不 一 致 ， 数 据 库 崩 溃 重 启 后 ， 在 崩 演 过 程 中 创建 的 表 可 能 会 出 现 数据 字典 不 一 致 的 问题 ， 但 是 修复 数据 字典 很 麻烦 ， 建 议 还 是 
弃 表 重建 一 个 吧 。 


15.2. 常见 问题 及 解决 办 法 


1. 时 间 分 区 裁剪 


我 们 来 看 下 这 个 SQL: 


explain select * from public.test offer where dw end date = now()::date; 


其 中 dw_end date 是 一 个 date 类 型 。 


在 Greenplum 3.x 中 ， 执 行 计划 将 对 表 进 行 全 表 扫 描 ， 但 是 在 Greenplum 4.x 中 ， 数 据 库 会 算出 今天 的 数据 ， 然 后 对 分 区 进行 裁 萝 ， 所 以 在 使 用 Greenplum3.x 的 时 候 要 注意 将 这 种 SQL 中 的 时 间 蔡 换 成 
具体 的 时 间 串 ， 然 后 进行 计算 。 


但 是 对 于 下 面 这 个 SQL， 无 论 是 Greenplum 3.x 还 是 Greenplum 4.x 都 是 无 法 采取 分 区 裁剪 : 


explain select * from public.test offer where dw end date - now(); 


面 介 绍 在 Greenplum 3.x 中 如 何 定义 一 个 函数 来 实现 now() 的 功能 。 在 Greenplum 中 可 以 采取 分 区 裁剪 。 


在 PostgreSQL 的 文档 中 ， 自 定义 函数 有 如 下 属性 ， 分 别 代表 自 定义 函数 的 类 型 


. IMMUTABLE 表示 该 函数 不 能 修改 数据 库 ， 并 且 在 给 出 同样 的 参数 值 时 总 是 返回 同样 的 结果 。 也 就 是 说 ， 不 查询 数据 库 或 者 只 使 用 那些 没有 出 现在 参数 列表 中 的 信息 。 如 果 给 出 这 那么 任何 
对 该 函数 的 调用 都 将 立即 转换 成 该 函数 的 结果 值 ( 如 果 func 是 一 个 JIMMUTABIE 的 自 定 义 函 数 ， 而 func (1) 的 值 为 100， 那 么 在 SQL 执行 前 ， 所 有 func (1) 的 值 都 会 被 替换 成 100) 。 


STABIEE 表 示 该 函数 能 修改 数据 库 ， 对 于 相同 参数 值 ， 在 同一 次 表 扫 描 中 ， 该 函数 的 返回 值 不 变 , 但 是 返回 值 可 能 在 不 同 SQL 语 和 句 之 间 变 化 。 这 个 属性 用 于 那些 结果 依赖 数据 库 环境 (比如 当前 时 区 ) 


之 类 的 函数 。 还 要 注意 current_timestamp 池 数 总 是 稳定 的 ， 因 为 它们 的 值 在 一 次 事务 中 不 会 变化 。 


VOLATIILE 表 示 该 没 数 值 可 以 在 一 次 表 扫 描 内 改变 ， 因 此 不 会 做 任何 优化 。 只 有 很 少 的 数据 库 光 数 在 这 个 概念 上 是 易 变 的 ， 比 如 random()，cutrval0 ，timeofday0。 注 意 任 何 有 副作用 的 函数 都 必须 列 为 
易 变 类 ， 即 使 其 结果 相当 有 规律 也 应 该 如 此 ， 这 样 才 能 避免 函数 被 优化 ，setval0 就 是 这 样 的 函数 。 


now 和 current_timestamp 等 函数 ， 都 是 STABLE 类 型 的 。 对 于 Greenplum 3.x 来 说 ， 如 果 使 用 STABLE 的 函数 ， 数 据 库 在 生成 执行 计划 的 时 候 不 会 去 计算 这 个 值 的 大 小 。 


OFS “函数 的 类 型 可 以 在 pg _proc 数 据 字 典 中 找到 : 


testDB-4 select provolatile from pg proc where proname-'now'; 
provolatile 


Provolatile 字 段 的 值 : iX immutable, s4X stable, v4X X volatile; 


那么 我 们 建 一 个 IMMUTABLE 的 函数 ， 数 据 库 是 人 否 会 采用 分 区 裁剪 呢 ? 


create or replace function public.curr date() 
RETURNS date 
AS 
SBODYS 
begin 
return  now()::date; 


end; 
SBODYS 
LANGUAGE 'plpgsql' IMMUTABLE ; 


虽然 实际 上 还 是 调用 now0 来 计算 当天 的 时 间 ， 但 是 数据 库 并 不 会 分 析 遂 数 中 的 内 容 。 将 这 个 遂 数 创建 为 IMMUTABLE 类 型 的 ， 数 据 库 就 认为 这 个 函数 的 返回 值 无 论 如 何 都 不 会 变化 ， 那 么 在 生成 执行 
计划 的 时 候 ， 就 会 将 这 个 函数 的 值 计算 出 来 ， 这 样 分 区 表 查 询 就 会 采取 分 区 裁剪 了 。 


OIE 当 函 数 被 创建 为 IMMUTABI 忆 类 型 的 时 候 ， 在 同一 个 会 话 中 ， 这 个 函数 的 值 是 不 会 变 的 ， 除 非 重 新 开始 一 个 会 话 。 这 样 就 会 有 一 个 问题 ， 例 如 ， 对 于 上 面 的 SQL， 如 果 是 在 1 日 23; 59 分 执行 
的 ， 当 时 间 到 了 2 日 凌晨 的 时 候 ， 如 果 还 是 在 同一 个 会 话 中 ， 那 么 查询 到 的 数据 ， 还 是 1 日 的 数据 。 


读者 可 以 试 试 将 函数 创建 为 STABLE 或 VOLATILE 类 型 来 验证 数据 库 是 否 采 取 分 区 裁剪 。 


2. 如 何 查询 当前 SQL 在 segment 上 对 应 的 进程 号 


一 /一 


在 查看 当前 运行 SQL 的 系统 视图 (pg stat activity) 时 会 发 现 ，Greenplumk 比 PostgreSQL 多 了 一 个 sess id 的 字段 ， 在 Greenplum 中 ， 一 个 SQL 会 被 拆 分 成 子 任务 在 Sement 上 运行 ， 对 于 同一 个 
SQL， 这 些 子 任务 在 Segment 上 都 拥有 同一 个 sess id ( 即 会 话 ID) ， 这 个 sess id 就 是 Master 和 和 Segment 之 间 SQL 对 应 的 标识 。 通 过 all_seg_sql (10.6 节 中 介绍 ) 视图 ， 就 可 以 在 Naster 上 查询 每 个 


segment 的 进程 号 了 
还 有 一 种 查询 Segment 的 进程 号 的 方法 ， 那 就 是 查看 进程 号 。 在 Master 上 查询 好 正在 运行 的 SQL 的 sess id， 然 后 使 用 ps auxww 看 出 Segment 上 的 进程 ， 细 心 的 读者 会 发 现 ， 进 程 上 有 很 多 关于 这 个 进 
程 的 信息 : 


postgres: port 33000, gpadmin testDB 10.20.151.7(51234) con87 seg4 idle 


其 中 con 之 后 的 87 就 是 sess id, 


进程 的 其 他 信息 有 : 这 个 Segment 对 应 的 端口 ， 当 前 SQL 执 行 的 用 户 名 ,数据库 名 ，SQL 是 从 哪个 1P 发 送 过 来 的 (括号 中 的 是 对 应 的 端口 地 址 ) ，con 后 面 的 数据 即 sess_id，seg 后 面 的 数字 则 对 应 该 


segment 对 应 gp_configuration 的 content。 
Qua 通过 netstat-na 就 可 以 查看 这 个 端口 : 


[gpadmin@inc-dw-hadoop-151-7 ~]$ netstat -an |grep 51234 
tcp 0 0 10.20.151.7:51234 10.20.151.10:33000 ESTABLISHED 


3. 一 个 SQL 在 一 个 segment 上 只 会 对 应 一 个 进程 吗 


不 是 的 ， 一 个 SQL 有 可 能 会 对 应 多 个 进程 。 前 面 讲 到 了 ， 每 当 有 数据 广播 或 重 分 布 时 ，Segment 都 会 启动 相应 的 进程 来 处 理 数据 切片 〈 即 执行 计划 中 的 slice) 。 所 以 应 该 尽量 减少 一 个 SQL 中 广播 或 重 
分 布 的 次 数 ， 减 少 太 多 进程 给 数据 库 或 者 操作 系统 带 来 的 压力 。 


4 如果 有 有 segment 死机 了 ， 需 要 将 数据 迁移 到 其 他 的 机 器 上 ， 如 何 才能 让 新 的 机 器 生效 


修改 gp_ segment_configuration 中 对 应 的 IP 地 址 的 响应 的 端口 号 ， 然 后 重启 数据 库 ， 在 修改 gp_segment _configuration 的 时 候 ， 可 以 使 用 gpstart-m 单 独 启动 Master， 然 后 通过 utility 模 式 登 录 
Master 进 行 修改 (修改 前 记得 将 原来 的 数据 备份 ， 以 防 万 一 ) 。 


5.Segment 数 据 目录 的 名 字 是 否 可 以 修改 
在 Greenplum 3.x 的 版 本 中 是 可 以 随意 修改 的 ， 在 修改 之 后 ， 只 需要 将 gp_configuration 中 对 应 的 datadir 字 段 改 成 新 的 数据 位 置 即 可 。 


在 Greenplum 4.x 版 本 中 ， 数 据 目录 是 记录 在 pg_filespace_entry 中 的 。 如 果 没 有 使 用 filespace (要 使 用 表 空 间 必 须 新 建 一 个 文件 空间 ) ， 那 么 在 修改 目录 位 置 后 ， 可 以 修改 pg _filespace_entry 来 完成 
配置 更 新 。 但 如 果 使 用 了 表 空 间 ， 由 于 主 备 之 间 需 要 同步 数据 ， 在 每 个 子 节点 的 gp_persistent filespace_node 表 中 都 会 记录 primary 和 mirror 对 应 的 filespace 的 目录 ， 这 个 目录 是 不 能 修改 的 。 因 此 ， 在 
Greenplum 4.x 版 本 中 ， 数 据 目 录 在 使 用 了 filespace 之 后 是 不 能 随意 更 改 的 。 


6. 如 何 提交 SQL 


在 提交 SQL 的 时 候 由 于 有 一 些 参 数 是 动态 变化 的 ， 比 如 时 间 ， 每 天 执行 任务 时 ，SQL 中 操作 数据 的 时 间 是 按 天 变化 的 ， 或 者 一 些 内 容 可 能 会 要 求 在 一 个 事务 中 执行 ， 所 以 提交 SQL 脚本 应 该 对 其 进行 封 
A. 


一 般 利用 脚本 语言 ， 例 如 Perl、Python， 对 SQL 进行 封装 ， 这 样子 还 可 以 在 脚本 里 面 处 理 一 些 逻 辑 ， 使 用 起 来 更 加 灵活 ， 通 过 封装 好 统一 的 接口 ， 可 以 屏蔽 掉 一 些 高 危 操 作 ， 如 drop 等 。 


15.3 ”常用 的 一 些小 技巧 
本 节 将 介绍 一 些 在 Greenplum 使 用 过 程 中 经 常用 到 的 一 些小 技巧 ， 利 用 这 些小 技巧 ， 可 以 在 操作 数据 库 的 过 程 中 更 加 得 心 应 手 。 
15.3.1 “显示 SQL 执行 的 时 间 


执行 SQL 之 前 ， 设 置 \timing 就 会 打开 时 间 : 


testDB=# Ntiming 
Timing is on. 
testDB=# select count(1) from pg class; 


(1 row) 
Time: 2.625 ms 


这 个 参数 是 在 psql 客 户 端 设 置 的 ， 与 服务 器 的 设置 无 关 。 如 果 想 默认 打开 这 个 参数 ， 则 要 在 psq| 的 客户 端 所 在 机 器 上 配置 ~/.psqlrc 这 个 文件 ， 在 文件 中 设置 默认 的 参数 ， 这 样 在 此 机 器 上 使 用 psql 登 录 
Greenplum 都 会 默认 先 应 用 ~/.psqlrc 中 的 所 有 参数 配置 ， 如 : 
[gpadminG(inc-dw-hadoop-151-7 ~]$ cat -/.psqlrc 


Ntiming 
set client encoding-utf8 


15.3.2 ”获取 某 个 schema 下 所 有 的 表 或 视图 


要 快速 将 某 个 schema 下 的 所 有 表 或 视图 查询 出 来 ， 可 以 用 : 


testDB-4 Ndt tmp.* 


List of relations 
Schema | Name | Type | Owner | Storage 
一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 
tmp | test 1000 | table | gpadmin | heap 
(1 row) 


\dt 为 表 ，\dv 为 视图 ， 支 持 通配符 。 这 一 类 命令 很 常用 ， 比 如 通过 \df+ 逊 数 名 可 以 将 函数 的 定义 和 源码 显示 出 来 。 


15.3.3 ”查找 分 区 最 多 的 表 


Greenplum 的 分 区 信息 记录 在 pg_partition_rule 和 pg_partition 这 两 个 数据 字典 中 ， 通 过 关联 这 两 个 表 ， 即 可 找 出 分 区 最 多 的 表 。 


testDB=# select b.parrelid::regclass,count (1) 
testDB-# from pg partition rule a, 

testDB-# pg partition b 

testDB-# where a.paroid=b.oid 

testDB-# group by b.parrelid order by 2 desc; 

parrelid | count 

i i a 十 ———— 

test partition | 8 

test partition2 | 3 


(2 rows) 


15.3.4 连接 Segment 节 点 


在 登录 的 时 候 设置 环境 变量 PGOPTIONS='-c gp session _role=utility'， 就 可 以 登录 Segment 节 点 ， 如 下 : 


[gpadminGinc-dw-hadoop-151-7 ~]$ PGOPTIONS='-c gp session role-utility' psql -h sdw2 -p 33000 
psqi (8.2.15) 
Type 'help' for help. 
testDB-4 show gp contentid; 
gp contentid 


15.3.5 “psq| 默 认 密 码 登录 


跟 MySQL 和 Oracle 不 一 样 ， 在 psql 登 录 数 据 库 时 ， 如 果 在 pg_hba.conf 中 配置 了 md5 模 式 ， 则 要 输入 密码 。 而 在 psq| 的 命令 行 参 数 中 ， 不 能 指定 密码 。 如 果 要 设置 默认 密码 ， 则 要 设置 环境 变量 
PGPASSWORD: 


export PGPASSWORD-123456 


这 样 在 psql 登 录 的 时 候 ， 就 会 读 取 这 个 环境 变量 ， 并 使 用 这 个 密码 登录 数据 库 。 


15.3.6 ”查看 数据 库 启动 时 间 


查看 数据 库 从 什么 时 候 启 动 : 


testDB=# select pg postmaster start time(); 
pg postmaster start time 
2012-03-22 16:10:02.415047408 
(1 row) 


15.3.7 ”查看 在 psql 中 \d 到 底 查 询 了 哪些 数据 字典 
在 登录 的 时 候 ， 通 过 psql-E 登 录 数 据 库 ， 然 后 再 使 用 \d 等 类 型 的 命令 ， 就 会 打印 出 查询 的 SQL: 


testDB-4 Vd 

www WEN QUERY Li r r r a bi 
select version() 
LIIl421l1llililhElllliltildidlic 


LS 2414414414 QUERY FETERE 


SELECT n.nspname as “Schema”, 


c.relname as "Name", l i | 
CASE c.relkind WHEN 'r' THEN ‘table’ WHEN "v' THEN "view" WHEN 'i' THEN index WHEN 'S' THEN 'sequence' WHEN 's' THEN 'special' E 


ND as "Tvpe". 
pg.catalog.pg get userbyid(c.relowner) as "Owner", CASE c.relstorage WHEN 'h' THEN 'heap' WHEN 'x' THEN 'external' WHEN 'a' THEN ' 
append only WHEN 'v' THEN 'none' WHEN 'C' THEN "append only columnar’ WHEN 'f' THEN ‘foreign’ END as "Storage" 


FROM pg catalog.pg class c 
LEFT JOIN pg catalog.pg namespace n ON n.oid - c.relnamespace 
WHERE c.relkind IN ('r', v ,'5',' ji 
AND c.relstorage IN ('h', a', c','x,T',v',') 
AND n.nspname < 'pg catalog' 
AND n.nspname «» "information schema 
AND n.nspname !— "^pg toast' 
AND pg catalog.pg table 1s visible(c.oid) 
ORDER Dv 1,2; 
A AtA AAAA A AA A a a A A A A A 


List of relations 
| Type | Owner Storage 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 + 
cmn_offer_basic_fdro | table | gpadmin | append only columnar 


图 15-1 显示 使 用 \d 等 命令 查询 的 SQL 


154 小结 


本 章 主要 介绍 了 使 用 Greenplum 的 一 些 常见 的 报错 、 问 题 及 小 技巧 ， 这 些 内 容 都 是 笔者 平时 积累 下 来 的 ， 内 容 比较 散 。 由 于 笔者 能 力 有 限 ， 对 于 一 些 常见 报错 只 介绍 一 部 分 ， 有 一 些 报错 无 法 知道 其 底 


\ 一 ZX 一 


层 的 原因 ， 只 能 介绍 一 些 “ 治 标 ”的 方法 ， 比 如 重新 运行 。 


对 于 分 布 式 数据 库 而 言 ，Greenplum 的 功能 非常 全 面 ， 内 容 也 很 多 ， 在 使 用 过 程 中 有 很 多 的 技巧 ， 还 有 一 些 需要 注意 的 地 方 。 毕 竟 Greenplum 发 展 只 有 几 年 的 时 间 ， 很 多 地 方 都 不 够 完善 ， 很 多 细节 还 
没 做 好 ， 尤 其 是 在 稳定 性 方面 ， 在 数据 库 压 力 大 的 时 候 容 易 报 出 一 些 奇 奇怪 怪 的 错误 。 还 有 ，Greenplum 的 文档 相对 较 少 ， 几 乎 没有 可 以 借鉴 的 处 理 异常 报错 的 参考 资料 。 因 此 ， 用 户 在 使 用 的 时 候 要 注意 


日 常 的 积累 ， 记 录 下 来 一 些 报错 的 信息 并 探索 一 些 解决 方案 ， 通 过 不 断 的 积累 在 增加 自身 能 力 的 同时 提高 对 Greenplum 的 掌控 能 力 。 


